論文の概要: Elevating Visual Question Answering through Implicitly Learned Reasoning Pathways in LVLMs
- arxiv url: http://arxiv.org/abs/2503.14674v1
- Date: Tue, 18 Mar 2025 19:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 17:45:40.820846
- Title: Elevating Visual Question Answering through Implicitly Learned Reasoning Pathways in LVLMs
- Title(参考訳): LVLMにおける暗黙的に学習された推論経路による視覚的質問応答の高次化
- Authors: Liu Jing, Amirul Rahman,
- Abstract要約: MF-SQ-LLaVAは,エンド・ツー・エンドのトレーニングを通じて暗黙の自己問合せを可能にすることで,LVLMを強化する新しいアプローチである。
提案手法では,サブクエストと解答ペアからなる推論チェーンを用いて,視覚的質問応答データセットを増強する。
我々はScienceQAとVQAv2データセットに関する広範な実験を行い、MF-SQ-LLaVAが既存の最先端モデルよりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown remarkable progress in various multimodal tasks, yet they often struggle with complex visual reasoning that requires multi-step inference. To address this limitation, we propose MF-SQ-LLaVA, a novel approach that enhances LVLMs by enabling implicit self-questioning through end-to-end training. Our method involves augmenting visual question answering datasets with reasoning chains consisting of sub-question and answer pairs, and training the LVLM with a multi-task loss that encourages the generation and answering of these intermediate steps, as well as the prediction of the final answer. We conduct extensive experiments on the ScienceQA and VQAv2 datasets, demonstrating that MF-SQ-LLaVA significantly outperforms existing state-of-the-art models, including the base LLaVA and the original SQ-LLaVA. Ablation studies further validate the contribution of each component of our approach, and human evaluation confirms the improved accuracy and coherence of the reasoning process enabled by our method.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な進歩を示すが、多段階推論を必要とする複雑な視覚的推論に苦慮することが多い。
この制限に対処するため、我々は、エンドツーエンドのトレーニングを通じて暗黙的な自己問合せを可能にし、LVLMを強化する新しいアプローチであるMF-SQ-LLaVAを提案する。
提案手法は,サブクエストと解答ペアからなる推論チェーンを用いた視覚的質問応答データセットの強化と,これらの中間ステップの生成と解答を促進するマルチタスク損失によるLVLMのトレーニング,および最終解答の予測を含む。
我々はScienceQAとVQAv2データセットに関する広範な実験を行い、MF-SQ-LLaVAがベースとなるLLaVAやオリジナルのSQ-LLaVAを含む既存の最先端モデルよりも大幅に優れていることを示した。
アブレーション研究は, 提案手法のそれぞれの構成要素の寄与を更に検証し, 提案手法によって実現された推論過程の精度と一貫性の向上を人間による評価により確認する。
関連論文リスト
- OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs [86.21199607040147]
MLLM(Multimodal Large Language Models)は、微粒な認識と複雑な推論を伴う課題に直面する。
主流のマルチモーダル事前学習アプローチは、高品質な画像キャプションのトレーニングによる知覚の向上に焦点を当てている。
本稿では,次世代MLLMを構築するための自己学習フレームワークである自己改善認知(SIcog)を紹介する。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Memory-enhanced Retrieval Augmentation for Long Video Understanding [57.371543819761555]
我々は,ヒトの認知記憶にインスパイアされた新しいRAGベースのLVUアプローチ,MemVidを紹介した。
提案手法は,全体的映像情報の記憶,メモリに基づくタスクの情報要求の推論,情報要求に基づくクリティカルモーメントの検索,最終回答を生成するための検索モーメントの抽出という,4つの基本的なステップで機能する。
論文 参考訳(メタデータ) (2025-03-12T08:23:32Z) - Improving Generalization in Visual Reasoning via Self-Ensemble [0.0]
本稿では,パラメータを更新せずにモデルの一般化と視覚的推論を改善する手法であるセルフアンサンブルを提案する。
私たちの重要な洞察は、LVLM自体が他のLVLMを必要とせずにアンサンブルできるということです。
論文 参考訳(メタデータ) (2024-10-28T10:04:40Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。
以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。
本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文 参考訳(メタデータ) (2024-07-16T01:28:06Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - An Enhanced Prompt-Based LLM Reasoning Scheme via Knowledge Graph-Integrated Collaboration [7.3636034708923255]
本研究では,知識グラフ(KG)と大規模言語モデル(LLM)の緊密な協調を含む協調学習自由推論手法を提案する。
このような協調的な手法により、より信頼性の高い知識に基づく推論を実現し、推論結果の追跡を容易にする。
論文 参考訳(メタデータ) (2024-02-07T15:56:17Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z) - Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks [59.761411682238645]
Retrieval-augmented Generation Modelは、多くの知識集約型NLPタスクにまたがって最先端のパフォーマンスを示している。
生成器の訓練に、パスが出力をサポートするための正しい証拠を含むか否かに関わらず、パスの明快さを組み込む方法を導入する。
論文 参考訳(メタデータ) (2021-12-16T08:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。