論文の概要: Joint Answering and Explanation for Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2202.12626v1
- Date: Fri, 25 Feb 2022 11:26:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 15:24:59.743155
- Title: Joint Answering and Explanation for Visual Commonsense Reasoning
- Title(参考訳): 視覚常識推論のための共同解答と説明
- Authors: Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan
Kankanhalli
- Abstract要約: Visual Commonsense Reasoningは、よりハイレベルな視覚的理解を追求する試みである。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
本稿では,質問応答と推論プロセスの合理化を両立させるための知識蒸留強化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.44588492897933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Commonsense Reasoning (VCR), deemed as one challenging extension of
the Visual Question Answering (VQA), endeavors to pursue a more high-level
visual comprehension. It is composed of two indispensable processes: question
answering over a given image and rationale inference for answer explanation.
Over the years, a variety of methods tackling VCR have advanced the performance
on the benchmark dataset. Despite significant as these methods are, they often
treat the two processes in a separate manner and hence decompose the VCR into
two irrelevant VQA instances. As a result, the pivotal connection between
question answering and rationale inference is interrupted, rendering existing
efforts less faithful on visual reasoning. To empirically study this issue, we
perform some in-depth explorations in terms of both language shortcuts and
generalization capability to verify the pitfalls of this treatment. Based on
our findings, in this paper, we present a plug-and-play knowledge distillation
enhanced framework to couple the question answering and rationale inference
processes. The key contribution is the introduction of a novel branch, which
serves as the bridge to conduct processes connecting. Given that our framework
is model-agnostic, we apply it to the existing popular baselines and validate
its effectiveness on the benchmark dataset. As detailed in the experimental
results, when equipped with our framework, these baselines achieve consistent
and significant performance improvements, demonstrating the viability of
processes coupling, as well as the superiority of the proposed framework.
- Abstract(参考訳): Visual Commonsense Reasoning (VCR)はVisual Question Answering (VQA)の難解な拡張のひとつと見なされ、よりハイレベルなビジュアル理解を目指す。
与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。
長年にわたって、VCRに対処する様々な手法がベンチマークデータセットのパフォーマンスを向上してきた。
これらの方法が重要であるにもかかわらず、2つのプロセスを別々に扱い、VCRを2つの無関係なVQAインスタンスに分解する。
その結果、質問応答と合理的推論の間の重要な関係が中断され、既存の努力が視覚的推論に忠実でない。
この問題を実証的に研究するために,言語ショートカットと一般化能力の両方の観点から詳細な調査を行い,この治療の落とし穴を検証する。
そこで本論文では,質問応答と推論プロセスの合理化を両立させるために,プラグアンドプレイ方式の知識蒸留拡張フレームワークを提案する。
重要な貢献は、プロセスの接続を行うブリッジとして機能する新しいブランチの導入である。
我々のフレームワークはモデルに依存しないので、既存の一般的なベースラインに適用し、ベンチマークデータセット上での有効性を検証する。
実験結果に詳述したように,本フレームワークを組み込んだ場合,これらのベースラインは一貫した,重要な性能向上を実現し,プロセス結合の実現可能性,提案フレームワークの優位性を実証する。
関連論文リスト
- Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - Strong and Efficient Baselines for Open Domain Conversational Question
Answering [2.773656427800412]
The State-of-the-Art (SotA) Dense Passage Retrieval (DPR) retriever and Fusion-in-Decoder (FiD) reader pipeline。
本稿では,レシーバとリーダの間に高速なリグレードコンポーネントを導入することで,強力でシンプルで効率的なベースラインを提案し,評価する。
TopiOCQA と OR-QuAC という2つの ODConvQA タスクの実験により,本手法が SotA 結果を改善するとともに,読み出し遅延を60%削減することを示した。
論文 参考訳(メタデータ) (2023-10-23T08:48:14Z) - Building Interpretable and Reliable Open Information Retriever for New
Domains Overnight [67.03842581848299]
情報検索は、オープンドメイン質問応答(QA)など、多くのダウンストリームタスクにとって重要な要素である。
本稿では、エンティティ/イベントリンクモデルとクエリ分解モデルを用いて、クエリの異なる情報単位により正確にフォーカスする情報検索パイプラインを提案する。
より解釈可能で信頼性が高いが,提案したパイプラインは,5つのIRおよびQAベンチマークにおける通過カバレッジと記述精度を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-09T07:47:17Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Visual Causal Scene Refinement for Video Question Answering [117.08431221482638]
本稿では,ビデオQAの因果的解析を行い,視覚因果的シーンリファインメント (VCSR) という,相互因果的推論のための枠組みを提案する。
我々のVCSRには2つの重要なモジュールがあり、質問セマンティクスによって導かれる連続的なビデオフレームを洗練し、因果的フロントドア介入のためのより代表的なセグメント特徴を得る。
NExT-QA、Causal-VidQA、MSRVTT-QAデータセットの実験は、視覚因果シーンの発見と堅牢なビデオ質問応答の実現におけるVCSRの優位性を実証している。
論文 参考訳(メタデータ) (2023-05-07T09:05:19Z) - Learning to Agree on Vision Attention for Visual Commonsense Reasoning [50.904275811951614]
VCRモデルは、画像に関する質問に答えることを目的としており、続いて、前の回答プロセスの合理性予測が続く。
既存の手法は2つのプロセス間の重要な関係を無視し、最適化されたモデルの性能をもたらす。
本稿では,これら2つのプロセスを統一的な枠組みで効果的に処理する新しい視覚的アライメント手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T07:02:29Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。