論文の概要: CIMR: Contextualized Iterative Multimodal Reasoning for Robust Instruction Following in LVLMs
- arxiv url: http://arxiv.org/abs/2507.22074v1
- Date: Tue, 22 Jul 2025 18:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.737
- Title: CIMR: Contextualized Iterative Multimodal Reasoning for Robust Instruction Following in LVLMs
- Title(参考訳): CIMR:LVLMにおけるロバスト命令に対する文脈的反復的マルチモーダル推論
- Authors: Yangshu Yuan, Heng Chen, Xinyi Jiang, Christian Ng, Kexin Qiu,
- Abstract要約: CIMRは、コンテキスト対応の反復推論と自己補正モジュールを導入した、新しいフレームワークである。
CIMRの精度は91.5%で、GPT-4V、LLaVA-1.5、MiniGPT-4、InstructBLIPなどの最先端モデルを上回る。
- 参考スコア(独自算出の注目度): 2.238122883754112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Language Models (LLMs) and Large Vision-Language Models (LVLMs) has enhanced our ability to process and generate human language and visual information. However, these models often struggle with complex, multi-step multi-modal instructions that require logical reasoning, dynamic feedback integration, and iterative self-correction. To address this, we propose CIMR: Contextualized Iterative Multimodal Reasoning, a novel framework that introduces a context-aware iterative reasoning and self-correction module. CIMR operates in two stages: initial reasoning and response generation, followed by iterative refinement using parsed multi-modal feedback. A dynamic fusion module deeply integrates textual, visual, and contextual features at each step. We fine-tune LLaVA-1.5-7B on the Visual Instruction Tuning (VIT) dataset and evaluate CIMR on the newly introduced Multi-modal Action Planning (MAP) dataset. CIMR achieves 91.5% accuracy, outperforming state-of-the-art models such as GPT-4V (89.2%), LLaVA-1.5 (78.5%), MiniGPT-4 (75.3%), and InstructBLIP (72.8%), demonstrating the efficacy of its iterative reasoning and self-correction capabilities in complex tasks.
- Abstract(参考訳): LLM(Large Language Models)とLVLM(Large Vision-Language Models)の急速な進歩により、人間の言語や視覚情報を処理・生成する能力が向上した。
しかしながら、これらのモデルは論理的推論、動的フィードバックの統合、反復的な自己補正を必要とする複雑なマルチステップのマルチモーダル命令に悩まされることが多い。
コンテキスト適応型反復型マルチモーダル推論(Contextualized Iterative Multimodal Reasoning)は、コンテキスト認識反復型推論と自己補正モジュールを導入した新しいフレームワークである。
CIMRは、初期推論と応答生成の2段階で動作し、その後、解析されたマルチモーダルフィードバックを使用して反復的な改善を行う。
動的融合モジュールは、各ステップにおけるテキスト、ビジュアル、コンテキストの特徴を深く統合する。
視覚インストラクション・チューニング(VIT)データセット上でLLaVA-1.5-7Bを微調整し、新たに導入されたマルチモーダル・アクション・プランニング(MAP)データセット上でCIMRを評価する。
CIMRの精度は91.5%で、GPT-4V (89.2%)、LLaVA-1.5 (78.5%)、MiniGPT-4 (75.3%)、InstructBLIP (72.8%) などの最先端モデルよりも優れており、複雑なタスクにおける反復的推論と自己補正の有効性を実証している。
関連論文リスト
- MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning [4.963955559863751]
MMAT-1Mは、CoT、リフレクション、動的ツールの使用をサポートするために設計された最初の100万規模のマルチモーダルエージェントチューニングデータセットである。
我々のデータセットは、新しい4段階のデータエンジンによって構築されます。
MMAT-1M上でのオープンソースのマルチモーダルモデルを微調整することにより,大幅な性能向上を観測する。
論文 参考訳(メタデータ) (2025-07-29T15:39:14Z) - MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。
我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文 参考訳(メタデータ) (2025-07-19T16:21:23Z) - VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering [8.21219588747224]
本稿では,視覚エンコーダとシーケンス・ツー・シーケンス言語モデルを統合する統一アーキテクチャであるVLMTについて述べる。
VLMTは直接トークンレベルの注入機構を使用して、共有埋め込み空間内で視覚的およびテキスト的入力を融合する。
2つのベンチマークデータセットに関する総合的な実験は、提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-04-11T05:51:44Z) - VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。
我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。
マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文 参考訳(メタデータ) (2025-03-13T12:03:37Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。
具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。
マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文 参考訳(メタデータ) (2024-11-15T18:59:27Z) - Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models [7.056824589733873]
MLLM(Multi-modal large language model)は、実運用における画像とテキストの相互変換のマルチターンクエリをサポートすることが期待されている。
現在のMLLMは、視覚的な問合せのデータセットで訓練されており、劣化に悩まされる可能性がある。
そこで本研究では,MLLMの言語能力の回復と向上を図った,細粒度アノテーションを用いた蒸留法に基づくマルチモーダルアライメントモデルを提案する。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。