論文の概要: Detection-based Intermediate Supervision for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2312.16012v1
- Date: Tue, 26 Dec 2023 11:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:23:23.034583
- Title: Detection-based Intermediate Supervision for Visual Question Answering
- Title(参考訳): 視覚質問応答のための検出に基づく中間監督
- Authors: Yuhang Liu, Daowan Peng, Wei Wei, Yuanyuan Fu, Wenfeng Xie, Dangyang
Chen
- Abstract要約: シーケンス生成による複数のグラウンド管理を容易にするための生成的検出フレームワークを提案する。
提案するDisdisはより包括的で正確な中間監視を提供するので,回答予測性能が向上する。
拡張実験により提案したdisの精度と最先端の推論整合性の両方を実証した。
- 参考スコア(独自算出の注目度): 13.96848991623376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, neural module networks (NMNs) have yielded ongoing success in
answering compositional visual questions, especially those involving multi-hop
visual and logical reasoning. NMNs decompose the complex question into several
sub-tasks using instance-modules from the reasoning paths of that question and
then exploit intermediate supervisions to guide answer prediction, thereby
improving inference interpretability. However, their performance may be
hindered due to sketchy modeling of intermediate supervisions. For instance,
(1) a prior assumption that each instance-module refers to only one grounded
object yet overlooks other potentially associated grounded objects, impeding
full cross-modal alignment learning; (2) IoU-based intermediate supervisions
may introduce noise signals as the bounding box overlap issue might guide the
model's focus towards irrelevant objects. To address these issues, a novel
method, \textbf{\underline{D}}etection-based \textbf{\underline{I}}ntermediate
\textbf{\underline{S}}upervision (DIS), is proposed, which adopts a generative
detection framework to facilitate multiple grounding supervisions via sequence
generation. As such, DIS offers more comprehensive and accurate intermediate
supervisions, thereby boosting answer prediction performance. Furthermore, by
considering intermediate results, DIS enhances the consistency in answering
compositional questions and their sub-questions.Extensive experiments
demonstrate the superiority of our proposed DIS, showcasing both improved
accuracy and state-of-the-art reasoning consistency compared to prior
approaches.
- Abstract(参考訳): 近年、ニューラル・モジュール・ネットワーク(NMN)は、特にマルチホップ視覚的および論理的推論を含む、構成的視覚的疑問に答えることに成功した。
NMNは、複雑な質問を、その質問の推論経路からインスタンス-モジュールを使っていくつかのサブタスクに分解し、答えの予測を誘導するために中間的な監督を利用する。
しかし、その性能は中間監督者のスケッチ的なモデリングによって妨げられる可能性がある。
例えば、(1)各インスタンスモジュールが1つの接地オブジェクトのみを参照し、他の潜在的に関連付けられた接地オブジェクトを見落とし、完全なクロスモーダルアライメント学習を妨げるという以前の仮定 (2)iouベースの中間監督は、バウンディングボックスオーバーラップの問題がモデルの無関係なオブジェクトへの焦点を導く可能性があるため、ノイズ信号を導入する可能性がある。
これらの問題に対処するために、新しい手法である \textbf{\underline{D}}etection-based \textbf{\underline{I}}ntermediate \textbf{\underline{S}}upervision (DIS) が提案され、シーケンス生成による複数の基底管理を容易にするために、生成的検出フレームワークを採用する。
このように、disはより包括的で正確な中間監視を提供し、その結果、回答予測性能が向上する。
さらに, 中間結果を考慮し, 構成質問に対する回答とサブクエストの整合性を高め, 提案したDisdisの優位性を実証し, 従来のアプローチと比較して精度と最先端の推論整合性を示す。
関連論文リスト
- SADDE: Semi-supervised Anomaly Detection with Dependable Explanations [6.430347394645541]
SADDEは2つの主要な目的を達成するために設計された一般的なフレームワークである。
これにより、異常検出プロセスが解釈可能となり、解釈結果の信頼性が向上する。
ネットワーク異常検出に適した新しい2段階半教師付き学習フレームワークを概念化する。
論文 参考訳(メタデータ) (2024-11-18T05:39:00Z) - Fast Disentangled Slim Tensor Learning for Multi-view Clustering [28.950845031752927]
本稿では,マルチビュークラスタリングのための高速離散スリム学習法(DSTL)を提案する。
頑健なPCAにインスパイアされた特徴冗長性の負の影響を軽減するため、DSTLは、潜在する低次元表現を、各ビューに対する意味的非関連部分と意味的関連部分に分解する。
提案手法は計算効率が高く,効果的に解ける。
論文 参考訳(メタデータ) (2024-11-12T09:57:53Z) - How to Understand "Support"? An Implicit-enhanced Causal Inference
Approach for Weakly-supervised Phrase Grounding [18.97081348819219]
WPG(Wakly-supervised Phrase Grounding)は,微粒な句領域マッチングを推定する新たな課題である。
本稿では,暗黙的な関係をモデル化する上での課題に対処するインプリシット強化因果推論手法を提案する。
論文 参考訳(メタデータ) (2024-02-29T12:49:48Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection [18.015012133043093]
我々は,ミームシナリオにおける暗黙の害を解読するトポロジ対応の最適輸送フレームワークTOTを提案する。
具体的には、最適なトランスポートカーネル法を利用して、複数のモードから補完情報をキャプチャする。
公開された2つのベンチマークデータセット上で新たに達成された最先端のパフォーマンスは、さらなるビジュアル分析とともに、TOTの優位性を示している。
論文 参考訳(メタデータ) (2023-02-27T06:58:19Z) - Unpaired Referring Expression Grounding via Bidirectional Cross-Modal
Matching [53.27673119360868]
表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。
本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。
私たちのフレームワークは、2つの一般的なグラウンドデータセットで、以前の作業の6.55%と9.94%を上回っています。
論文 参考訳(メタデータ) (2022-01-18T01:13:19Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。