論文の概要: Training-Free Reasoning and Reflection in MLLMs
- arxiv url: http://arxiv.org/abs/2505.16151v1
- Date: Thu, 22 May 2025 02:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.992434
- Title: Training-Free Reasoning and Reflection in MLLMs
- Title(参考訳): MLLMの学習自由推論と反射
- Authors: Hongchen Wei, Zhenzhong Chen,
- Abstract要約: 本稿では,FRANKモデルについて紹介する。FRANKモデルとは,既製のMLLMに推論とリフレクションを付与したトレーニングフレームANd r1-liKe MLLMである。
私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。
そこで本研究では, 深いデコーダ層に推論能力を統合する, テイラー型閉形式融合機構を提案する。
- 参考スコア(独自算出の注目度): 45.134271969594614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Reasoning LLMs (e.g., DeepSeek-R1 and OpenAI-o1) have showcased impressive reasoning capabilities via reinforcement learning. However, extending these capabilities to Multimodal LLMs (MLLMs) is hampered by the prohibitive costs of retraining and the scarcity of high-quality, verifiable multimodal reasoning datasets. This paper introduces FRANK Model, a training-FRee ANd r1-liKe MLLM that imbues off-the-shelf MLLMs with reasoning and reflection abilities, without any gradient updates or extra supervision. Our key insight is to decouple perception and reasoning across MLLM decoder layers. Specifically, we observe that compared to the deeper decoder layers, the shallow decoder layers allocate more attention to visual tokens, while the deeper decoder layers concentrate on textual semantics. This observation motivates a hierarchical weight merging approach that combines a visual-pretrained MLLM with a reasoning-specialized LLM. To this end, we propose a layer-wise, Taylor-derived closed-form fusion mechanism that integrates reasoning capacity into deep decoder layers while preserving visual grounding in shallow decoder layers. Extensive experiments on challenging multimodal reasoning benchmarks demonstrate the effectiveness of our approach. On the MMMU benchmark, our model FRANK-38B achieves an accuracy of 69.2, outperforming the strongest baseline InternVL2.5-38B by +5.3, and even surpasses the proprietary GPT-4o model. Our project homepage is at: http://iip.whu.edu.cn/frank/index.html
- Abstract(参考訳): Reasoning LLM(例えばDeepSeek-R1とOpenAI-o1)の最近の進歩は、強化学習による印象的な推論能力を示している。
しかし、これらの機能をMLLM(Multimodal LLM)に拡張することは、トレーニングの禁止コストと高品質で検証可能なマルチモーダル推論データセットの不足によって妨げられる。
本稿では,FRANKモデルについて紹介する。FRANKモデル,FRANKモデルは,既設のMLLMを段階的な更新や余分な監督を伴わずに,推論能力とリフレクション能力を付与する。
私たちの重要な洞察は、MLLMデコーダ層間の認識と推論を分離することです。
具体的には、より深いデコーダ層と比較して、浅いデコーダ層はより視覚的なトークンに注意を向け、深いデコーダ層はテキストのセマンティクスに集中することを観察する。
この観察は、視覚事前学習MLLMと推論特化LDMを組み合わせた階層的な重み付けアプローチを動機付けている。
そこで本研究では,浅層デコーダ層における視覚的接地を保ちながら,推論能力を深層デコーダ層に統合する,テイラー型閉形核融合機構を提案する。
挑戦的マルチモーダル推論ベンチマークに関する大規模な実験は、我々のアプローチの有効性を実証している。
MMMUベンチマークでは、FRANK-38Bの精度は69.2で、最強のベースラインであるInternVL2.5-38Bを+5.3で上回り、プロプライエタリなGPT-4oモデルを超えています。
私たちのプロジェクトのホームページは以下の通りです。
関連論文リスト
- Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。
近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。
効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文 参考訳(メタデータ) (2025-03-26T08:44:11Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。