論文の概要: See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2507.17659v3
- Date: Wed, 13 Aug 2025 11:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 11:55:47.590111
- Title: See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering
- Title(参考訳): 森と木を見よ:知識に基づく視覚的質問応答のための相乗的推論フレームワーク
- Authors: Junjie Wang, Yunhan Tang, Yijie Wang, Zhihao Yuan, Huan Wang, Yangfan He, Bin Li,
- Abstract要約: 本稿では,新しい相乗的推論フレームワークであるSynergos-VQAを提案する。
コアとなるSynergos-VQAは、推論時に3つの補完的なエビデンスストリームを同時に生成し、融合する。
提案手法は強力なプラグアンドプレイ能力を示し,様々なオープンソースMLLMを大幅に向上させる。
- 参考スコア(独自算出の注目度): 15.983971611104057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have pushed the frontiers of Knowledge-Based Visual Question Answering (KBVQA), yet their reasoning is fundamentally bottlenecked by a reliance on uni-dimensional evidence. This "seeing only the trees, but not the forest" approach prevents robust, multi-faceted understanding. Inspired by the principle of seeing both the forest and trees, we propose Synergos-VQA, a novel synergistic reasoning framework. At its core, Synergos-VQA concurrently generates and fuses three complementary evidence streams at inference time: (1) Holistic Evidence to perceive the entire scene (the "forest"), (2) Structural Evidence from a prototype-driven module to identify key objects (the "trees"), and (3) Causal Evidence from a counterfactual probe to ensure the reasoning is robustly grounded. By synergistically fusing this multi-faceted evidence, our framework achieves a more comprehensive and reliable reasoning process. Extensive experiments show that Synergos-VQA decisively establishes a new state-of-the-art on three challenging benchmarks, including OK-VQA and A-OKVQA. Furthermore, our approach demonstrates strong plug-and-play capabilities, significantly boosting various open-source MLLMs and proving that superior methodological design can outperform sheer model scale.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は知識に基づく視覚質問回答(KBVQA)のフロンティアを推し進めている。
この「森林のみを見る」アプローチは、頑丈で多面的な理解を妨げる。
森林と樹木の両方を見るという原則に着想を得て,新しい相乗的推論フレームワークであるSynergos-VQAを提案する。
中心となるものとして、Synergos-VQAは、(1)シーン全体を知覚する全体的証拠(「森」)、(2)キーオブジェクト(「木」)を識別するプロトタイプ駆動モジュールからの構造的証拠(「木」)、(3)反ファクト的なプローブからの因果証拠(「因果証拠」)という3つの補完的証拠ストリームを推論時に同時に生成し、融合する。
この多面的証拠を相乗的に融合させることで、我々のフレームワークはより包括的で信頼性の高い推論プロセスを実現する。
大規模な実験により、Synergos-VQAはOK-VQAとA-OKVQAを含む3つの挑戦的なベンチマークに対して、新たな最先端を決定的に確立した。
さらに,提案手法は強力なプラグ・アンド・プレイ機能を示し,様々なオープンソースMLLMを著しく向上させ,優れた方法論設計がより優れたモデルスケールを達成できることを示す。
関連論文リスト
- From Query to Logic: Ontology-Driven Multi-Hop Reasoning in LLMs [3.828692258888057]
我々は、LLMの生成能力と知識グラフの構造的利点を組み合わせたトレーニングなしのフレームワークである**ORACLE* (**O**ntology-driven **R**easoning **A**nd **C*hain for **L*ogical **E**ucidationを提案する。
実験の結果,私たちのフレームワークは,DeepSeek-R1のような最先端モデルに匹敵する,論理的に高い競争力を持つことがわかった。
論文 参考訳(メタデータ) (2025-08-02T16:12:42Z) - Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology [87.65242416688146]
TreeBenchは、ビジュアルグラウンド推論の診断ベンチマークである。
TreeVGRは、強化学習と共同でローカライゼーションと推論を監督する訓練パラダイムである。
論文 参考訳(メタデータ) (2025-07-10T17:59:58Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism [13.759089543987473]
我々は,モンテカルロ木探索と自己回帰機構を用いて,LVLMにおける推論を強化するトレーニングフリーアプローチであるVReSTを提案する。
VReSTは現在のプロンプトメソッドを超え、3つのマルチモーダル数学的推論ベンチマークで最先端のパフォーマンスを確保する。
論文 参考訳(メタデータ) (2025-06-10T11:02:36Z) - Re-ranking Reasoning Context with Tree Search Makes Large Vision-Language Models Stronger [51.01841635655944]
大規模視覚言語モデル(LVLM)の最近の進歩は、視覚質問応答(VQA)タスクのパフォーマンスを著しく改善している。
既存の手法は、推論例による知識の不足や、抽出された知識からの不規則な応答など、依然として課題に直面している。
我々は、Reasoning Context-enriched knowledge baseとTree Search re-level methodを構築し、LVLMを強化したRCTSと呼ばれるマルチモーダルRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T14:00:57Z) - LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception [105.78609483419115]
我々はLongPerceptualThoughtsを紹介した。これは知覚タスクのための30Kの長所のトレースを持つ新しい合成データセットである。
本稿では,検証可能な複数の質問を最初に合成する新しい3段階データ合成フレームワークを提案する。
既存の視覚的推論データ生成手法よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2025-04-21T18:10:38Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Evidence-Enhanced Triplet Generation Framework for Hallucination Alleviation in Generative Question Answering [41.990482015732574]
本稿では,三重項(クエスト,エビデンス,アンスワー)の組合せを予測するための新しいエビデンス強化三重項生成フレームワークであるEATQAを提案する。
推測段階における証拠から知識を抽出するために,分布ギャップを橋渡しする。
我々のフレームワークは,クエリとエビデンスと応答の間の論理的関係を学習し,同時にエビデンス生成とクエリ応答を改善する。
論文 参考訳(メタデータ) (2024-08-27T13:07:07Z) - Chain-of-Action: Faithful and Multimodal Question Answering through Large Language Models [17.60243337898751]
マルチモーダルおよび検索強化質問応答(QA)のためのチェーン・オブ・アクション・フレームワークを提案する。
文献と比較すると、CoAは現在のQAアプリケーションにおける2つの大きな課題を克服している: (i) リアルタイムやドメインの事実と矛盾しない不誠実な幻覚、(ii) 構成情報よりも弱い推論性能。
論文 参考訳(メタデータ) (2024-03-26T03:51:01Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。