Fugu-MT 論文翻訳(概要): Interpretable Visual Question Answering via Reasoning Supervision

論文の概要: Interpretable Visual Question Answering via Reasoning Supervision

arxiv url: http://arxiv.org/abs/2309.03726v1
Date: Thu, 7 Sep 2023 14:12:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-08 12:48:53.700050
Title: Interpretable Visual Question Answering via Reasoning Supervision
Title（参考訳）: Reasoning Supervision による解釈可能な視覚質問応答
Authors: Maria Parelli and Dimitrios Mallis and Markos Diomataris and Vassilis Pitsikalis
Abstract要約: トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。本稿では,視覚的質問応答のための新しいアーキテクチャを提案する。提案手法がモデルの視覚知覚能力を向上し,性能向上につながることを定量的かつ定性的に示す。
参考スコア（独自算出の注目度）: 4.76359068115052
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based architectures have recently demonstrated remarkable performance in the Visual Question Answering (VQA) task. However, such models are likely to disregard crucial visual cues and often rely on multimodal shortcuts and inherent biases of the language modality to predict the correct answer, a phenomenon commonly referred to as lack of visual grounding. In this work, we alleviate this shortcoming through a novel architecture for visual question answering that leverages common sense reasoning as a supervisory signal. Reasoning supervision takes the form of a textual justification of the correct answer, with such annotations being already available on large-scale Visual Common Sense Reasoning (VCR) datasets. The model's visual attention is guided toward important elements of the scene through a similarity loss that aligns the learned attention distributions guided by the question and the correct reasoning. We demonstrate both quantitatively and qualitatively that the proposed approach can boost the model's visual perception capability and lead to performance increase, without requiring training on explicit grounding annotations.
Abstract（参考訳）: トランスフォーマーベースのアーキテクチャは、最近Visual Question Answering (VQA)タスクで顕著なパフォーマンスを示している。しかし、そのようなモデルは重要な視覚的手がかりを無視し、しばしば視覚的根拠の欠如と呼ばれる現象である正しい答えを予測するために言語モダリティのマルチモーダルなショートカットと固有のバイアスに依存する。本研究では,常識推論を監督信号として利用する視覚質問応答のための新しいアーキテクチャにより,この欠点を解消する。推論の監督は正しい回答をテキストで正当化する形で行われ、このようなアノテーションは大規模なVisual Common Sense Reasoning (VCR)データセットですでに利用可能である。モデルの視覚的注意は、質問と正しい推論によって導かれる学習された注意分布を整合させる類似性損失を通じて、シーンの重要な要素に向かって誘導される。提案手法は,明示的な接地アノテーションのトレーニングを必要とせずに,モデルの視覚知覚能力を高め,性能向上につながることを定量的かつ定性的に示す。

関連論文リスト

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。視覚言語モデル(VLM)の規則に基づく強化学習に適応する提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文参考訳（メタデータ） (2025-06-27T17:59:27Z)
Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文参考訳（メタデータ） (2025-05-26T17:51:47Z)
VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。 GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文参考訳（メタデータ） (2025-05-20T11:37:49Z)
Reflective Instruction Tuning: Mitigating Hallucinations in Large Vision-Language Models [36.119299938503936]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて有望な性能を示す。幻覚に敏感であり、視覚内容や指示と不一致な出力を生成する。本稿では,理科学習を視覚的指導調律に統合した反射的指導調律を提案する。
論文参考訳（メタデータ） (2024-07-16T06:32:45Z)
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文参考訳（メタデータ） (2023-05-24T08:33:15Z)
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。 2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文参考訳（メタデータ） (2022-07-24T23:50:52Z)
Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文参考訳（メタデータ） (2022-05-25T09:53:47Z)
Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。我々は,グラフ推論機械という診断モデルを開発した。本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文参考訳（メタデータ） (2020-12-21T18:59:28Z)
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文参考訳（メタデータ） (2020-10-30T00:57:17Z)
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文参考訳（メタデータ） (2020-06-20T08:48:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。