論文の概要: Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2102.13030v1
- Date: Thu, 25 Feb 2021 17:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 18:02:38.534995
- Title: Retrieval Augmentation to Improve Robustness and Interpretability of
Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークのロバスト性と解釈性向上のための検索拡張
- Authors: Rita Parada Ramos, Patr\'icia Pereira, Helena Moniz, Joao Paulo
Carvalho, Bruno Martins
- Abstract要約: 本研究では,深層ニューラルネットワークの堅牢性と解釈性を改善するために,トレーニングデータを積極的に活用する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
その結果,Flickr8 と IMDB の2つのタスクに対して提案したモデルの有効性が示された。
- 参考スコア(独自算出の注目度): 3.0410237490041805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network models have achieved state-of-the-art results in various
tasks related to vision and/or language. Despite the use of large training
data, most models are trained by iterating over single input-output pairs,
discarding the remaining examples for the current prediction. In this work, we
actively exploit the training data to improve the robustness and
interpretability of deep neural networks, using the information from nearest
training examples to aid the prediction both during training and testing.
Specifically, the proposed approach uses the target of the nearest input
example to initialize the memory state of an LSTM model or to guide attention
mechanisms. We apply this approach to image captioning and sentiment analysis,
conducting experiments with both image and text retrieval. Results show the
effectiveness of the proposed models for the two tasks, on the widely used
Flickr8 and IMDB datasets, respectively. Our code is publicly available
http://github.com/RitaRamo/retrieval-augmentation-nn.
- Abstract(参考訳): ディープニューラルネットワークモデルは、視覚や言語に関連する様々なタスクで最先端の結果を達成しています。
大規模なトレーニングデータを使用するにもかかわらず、ほとんどのモデルは単一の入出力ペアを反復することでトレーニングされ、現在の予測の残りの例は破棄される。
本研究では,学習データを用いて深層ニューラルネットワークのロバスト性や解釈性を向上させるとともに,最寄りのトレーニング例の情報を用いて,トレーニングとテストの両方における予測を支援する。
具体的には、LSTMモデルのメモリ状態を初期化したり、注意機構を誘導するために、最も近い入力例のターゲットを用いる。
本手法は画像キャプションと感情分析に応用し,画像検索とテキスト検索の両方で実験を行う。
その結果、Flickr8とIMDBデータセットの2つのタスクに対して提案されたモデルの有効性が示された。
コードはhttp://github.com/RitaRamo/retrieval-augmentation-nnで公開されています。
関連論文リスト
- Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。
モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。
トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。
EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T04:23:12Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - How to Train Your Neural Network: A Comparative Evaluation [1.3654846342364304]
大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。
大規模画像と言語訓練における性能を比較した実験結果を示す。
この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的部分と実装的部分について議論する。
論文 参考訳(メタデータ) (2021-11-09T04:24:42Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Self-Adaptive Training: Bridging the Supervised and Self-Supervised
Learning [16.765461276790944]
自己適応型トレーニングは、追加の計算コストを課すことなく、モデル予測によってトレーニングプロセスを動的にキャリブレーションし、強化する統一型トレーニングアルゴリズムです。
ランダムノイズや敵対的な例など、破損したトレーニングデータの深層ネットワークのトレーニングダイナミクスを分析します。
分析の結果, モデル予測はデータ中の有用な情報量を拡大することが可能であり, 強調ラベル情報がない場合にも広く発生することがわかった。
論文 参考訳(メタデータ) (2021-01-21T17:17:30Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。