論文の概要: Multimodal Representations for Teacher-Guided Compositional Visual
Reasoning
- arxiv url: http://arxiv.org/abs/2310.15585v1
- Date: Tue, 24 Oct 2023 07:51:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:00:40.955266
- Title: Multimodal Representations for Teacher-Guided Compositional Visual
Reasoning
- Title(参考訳): 教師指導による構成的視覚推論のためのマルチモーダル表現
- Authors: Wafa Aissa (CEDRIC - VERTIGO), Marin Ferecatu (CEDRIC - VERTIGO),
Michel Crucianu (CEDRIC - VERTIGO)
- Abstract要約: NMNは統合モデルと比較して説明性の向上を提供する。
本稿では,大規模なクロスモーダルエンコーダによって得られた特徴を活用することを提案する。
スケジュールされた教師指導を含むNMN学習戦略を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Module Networks (NMN) are a compelling method for visual question
answering, enabling the translation of a question into a program consisting of
a series of reasoning sub-tasks that are sequentially executed on the image to
produce an answer. NMNs provide enhanced explainability compared to integrated
models, allowing for a better understanding of the underlying reasoning
process. To improve the effectiveness of NMNs we propose to exploit features
obtained by a large-scale cross-modal encoder. Also, the current training
approach of NMNs relies on the propagation of module outputs to subsequent
modules, leading to the accumulation of prediction errors and the generation of
false answers. To mitigate this, we introduce an NMN learning strategy
involving scheduled teacher guidance. Initially, the model is fully guided by
the ground-truth intermediate outputs, but gradually transitions to an
autonomous behavior as training progresses. This reduces error accumulation,
thus improving training efficiency and final performance.We demonstrate that by
incorporating cross-modal features and employing more effective training
techniques for NMN, we achieve a favorable balance between performance and
transparency in the reasoning process.
- Abstract(参考訳): ニューラルモジュールネットワーク(Neural Module Networks, NMN)は、画像上で順次実行される一連の推論サブタスクからなるプログラムへの質問の変換を可能にする視覚的質問応答のための魅力的な方法である。
nmnは統合モデルと比較して説明可能性を高め、基礎となる推論プロセスの理解を深める。
nmnの有効性を向上させるため,大規模クロスモーダルエンコーダで得られた特徴を活用できる。
また、現在のNMNsのトレーニング手法は、モジュール出力をその後のモジュールに伝播させることに依存しており、予測誤差の蓄積と偽解の生成につながる。
これを軽減するために,教師指導を含むNMN学習戦略を導入する。
当初、このモデルは地道な中間出力によって完全に導かれるが、訓練が進むにつれて徐々に自律的な行動へと移行する。
これにより、誤り蓄積を低減し、トレーニング効率と最終性能を向上し、クロスモーダル機能を導入し、NMNにより効果的なトレーニング技術を採用することにより、推論プロセスにおける性能と透明性のバランスが良好であることを実証する。
関連論文リスト
- Alternate Training of Shared and Task-Specific Parameters for Multi-Task
Neural Networks [49.1574468325115]
本稿では,ハードパラメータ共有マルチタスクニューラルネットワーク(MTNN)のための新しい代替トレーニング手法を提案する。
提案した代替トレーニング手法は、モデルのマルチヘッドアーキテクチャを利用して、共有およびタスク固有の重みを交互に更新する。
実証実験では、遅延オーバーフィッティング、予測の改善、計算要求の削減が示されている。
論文 参考訳(メタデータ) (2023-12-26T21:33:03Z) - Label Deconvolution for Node Representation Learning on Large-scale
Attributed Graphs against Learning Bias [75.44877675117749]
本稿では,GNNの逆写像に対する新しい,スケーラブルな近似による学習バイアスを軽減するために,ラベルの効率的な正規化手法,すなわちラベルのデコンボリューション(LD)を提案する。
実験では、LDはOpen Graphデータセットのベンチマークで最先端のメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2023-09-26T13:09:43Z) - Decouple Graph Neural Networks: Train Multiple Simple GNNs Simultaneously Instead of One [60.5818387068983]
グラフニューラルネットワーク(GNN)は、深刻な非効率性に悩まされている。
我々は,より効率的なトレーニングを行うために,多層GNNを複数の単純なモジュールとして分離することを提案する。
提案するフレームワークは,合理的な性能で高い効率性を示す。
論文 参考訳(メタデータ) (2023-04-20T07:21:32Z) - Improving the Robustness of Neural Multiplication Units with Reversible
Stochasticity [2.4278445972594525]
多層パーセプトロンは、ある種の単純な算術的なタスクを学ぶのに苦労する。
特殊神経NMU(sNMU)は可逆性を適用するために提案され、そのようなオプティマの回避を奨励する。
論文 参考訳(メタデータ) (2022-11-10T14:56:37Z) - Teaching Neural Module Networks to Do Arithmetic [54.06832128723388]
インタプリタと複雑な問題の間のギャップを埋めることで、NMNをアップグレードする。
数値的推論を行う加法加法および減算加法を導入する。
DROPのサブセットでは,提案手法によりNMNの数値推論能力が17.7%向上した。
論文 参考訳(メタデータ) (2022-10-06T06:38:04Z) - Weakly Supervised Neuro-Symbolic Module Networks for Numerical Reasoning [44.5641465035393]
Weakly-Supervised Neuro-Symbolic Module Network (WNSMN)を提案する。
クエリの依存性解析から得られたノイズの多いMRCプログラムを、ニューラルおよびシンボリック推論モジュールの両方に対する離散的なアクションとして実行し、応答マッチングからの離散的な報酬で強化学習フレームワークでエンドツーエンドにトレーニングする。
これは、ノイズの多いプログラムに対する明示的な離散的推論をエンドツーエンドで処理できるモジュラーネットワークの有効性と一般化性を示す。
論文 参考訳(メタデータ) (2021-01-28T03:36:09Z) - Graph-based Heuristic Search for Module Selection Procedure in Neural
Module Network [25.418899358703378]
グラフに基づくヒューリスティック検索は,プログラムグラフと呼ばれるデータ構造を探索することで最適なプログラムを発見するアルゴリズムである。
本研究では,FQA と CLEVR のデータセットを用いて,NMN のトレーニングを基礎となるプログラムなしで行うことができることを示す。
論文 参考訳(メタデータ) (2020-09-30T15:55:44Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z) - Learning to Multi-Task Learn for Better Neural Machine Translation [53.06405021125476]
マルチタスク学習は、言語関連バイアスをニューラルネットワーク翻訳モデルに注入するエレガントなアプローチである。
本稿では,学習スケジュールの学習,マルチタスク学習のための新しいフレームワークを提案する。
実験の結果、自動学習したトレーニングスケジューラがベストと競い合っており、最大1.1BLEUスコアが向上している。
論文 参考訳(メタデータ) (2020-01-10T03:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。