論文の概要: Visually Interpretable Subtask Reasoning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.08084v1
- Date: Mon, 12 May 2025 21:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.342637
- Title: Visually Interpretable Subtask Reasoning for Visual Question Answering
- Title(参考訳): 視覚的質問応答のための視覚的解釈可能なサブタスク推論
- Authors: Yu Cheng, Arushi Goel, Hakan Bilen,
- Abstract要約: VISTAR(Visually Interpretable Subtask-Aware Reasoning Model)は、サブタスク駆動型トレーニングフレームワークで、解釈可能性と推論を向上させる。
外部リレーショナルモデルに頼る代わりに、VISTARは構造化されたSubtask-of-Thought論理を生成するための微細構造MLLMを使用する。
実験により、VISTARは解釈可能性を維持しながら推論精度を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 35.29789706461531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering complex visual questions like `Which red furniture can be used for sitting?' requires multi-step reasoning, including object recognition, attribute filtering, and relational understanding. Recent work improves interpretability in multimodal large language models (MLLMs) by decomposing tasks into sub-task programs, but these methods are computationally expensive and less accurate due to poor adaptation to target data. To address this, we introduce VISTAR (Visually Interpretable Subtask-Aware Reasoning Model), a subtask-driven training framework that enhances both interpretability and reasoning by generating textual and visual explanations within MLLMs. Instead of relying on external models, VISTAR fine-tunes MLLMs to produce structured Subtask-of-Thought rationales (step-by-step reasoning sequences). Experiments on two benchmarks show that VISTAR consistently improves reasoning accuracy while maintaining interpretability. Our code and dataset will be available at https://github.com/ChengJade/VISTAR.
- Abstract(参考訳): 例えば'Which red furniture can be used for sit?'といった複雑な視覚的質問には、オブジェクト認識、属性フィルタリング、リレーショナル理解など、多段階の推論が必要である。
近年,マルチモーダル大規模言語モデル(MLLM)のタスクをサブタスクプログラムに分解することで,解釈可能性の向上が図られている。
そこで本稿では,MLLM内のテキストおよび視覚的説明を生成することにより,解釈可能性と推論性の両方を向上させるサブタスク駆動トレーニングフレームワークであるVISTAR(Visually Interpretable Subtask-Aware Reasoning Model)を紹介する。
外部モデルに頼る代わりに、VISTARは構造化されたSubtask-of-Thought論理(ステップ・バイ・ステップの推論シーケンス)を生成するための微調整MLLMを使用する。
2つのベンチマークの実験では、VISTARは解釈可能性を維持しながら推論精度を一貫して改善している。
私たちのコードとデータセットはhttps://github.com/ChengJade/VISTAR.comで公開されます。
関連論文リスト
- NAVER: A Neuro-Symbolic Compositional Automaton for Visual Grounding with Explicit Logic Reasoning [22.60247555240363]
本稿では,人間の認知のような推論を必要とする手法の課題について考察する。
本研究では,明示的な確率論的論理推論を統合する構成的視覚的接地手法であるNAVERを提案する。
その結果、NAVERは最近のエンドツーエンドや構成ベースラインと比較して SoTA の性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-02-01T09:19:08Z) - Question: How do Large Language Models perform on the Question Answering tasks? Answer: [0.0]
大型言語モデル(LLM)は、少数ショットまたはゼロショットプロンプト技術を用いることで、これらのタスクを明示的にトレーニングする必要なしに、様々なNLPタスクに対して有望な結果を示している。
スタンフォード質問回答データセット 2.0 (SQuAD2) 上で、小型の微調整モデルとアウト・オブ・ザ・ボックスの命令追従 LLM の総合的な性能比較を提案する。
以上の結果から, より小型で細調整されたモデルでは, 細調整されたタスクにおいて, 現状のSOTA(State-Of-The-Art) LLMよりも優れていることがわかったが, 最新のSOTAモデルでは, このギャップを埋めることができる。
論文 参考訳(メタデータ) (2024-12-17T13:19:38Z) - Identifying Selections for Unsupervised Subtask Discovery [12.22188797558089]
我々は、データ中の選択変数の存在を識別し、検証する理論と実験を提供する。
これらの選択はサブタスクとガイドポリシーを示すサブゴールとして機能する。
このアイデアを踏まえて、これらのサブゴールを学習し、意味のある振る舞いパターンをサブタスクとして抽出するシーケンシャルな非負行列分解法(seq-NMF)を開発した。
論文 参考訳(メタデータ) (2024-10-28T23:47:43Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning [59.07490387145391]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な機能を示している。
情報検索(IR)タスクへのそれらの適用は、自然言語における多くのIR固有の概念の頻繁な発生のため、いまだに困難である。
我々は,3つの基本IRカテゴリにまたがる20のタスクを含む新しいインストラクションチューニングデータセット InterS を導入する。
論文 参考訳(メタデータ) (2024-01-12T12:10:28Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。