論文の概要: Tiny-R1V: Lightweight Multimodal Unified Reasoning Model via Model Merging
- arxiv url: http://arxiv.org/abs/2510.08987v1
- Date: Fri, 10 Oct 2025 04:14:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.105299
- Title: Tiny-R1V: Lightweight Multimodal Unified Reasoning Model via Model Merging
- Title(参考訳): Tiny-R1V:モデルマージによる軽量マルチモーダル統一推論モデル
- Authors: Qixiang Yin, Huanjin Yao, Jianghao Chen, Jiaxing Huang, Zhicheng Zhao, Fei Su,
- Abstract要約: Tiny-R1Vは2段階最適化により高速な推論と高精度を実現する軽量3Bモデルである。
最初の段階では、Tiny-R1Vは、新しい強化学習法であるLength-Informed Relative Policy Optimization (LIPO)を導入した。
第2段階では、トレーニング不要なモデルマージ手法である適応モデルマージ(AMM)を提案する。
- 参考スコア(独自算出の注目度): 34.0419616643477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities across diverse tasks, they encounter numerous challenges in terms of reasoning efficiency, such as large model size, overthinking, and compromised accuracy in lightweight scenarios. However, research on the reasoning capabilities of lightweight MLLMs is quite lacking. To this end, we propose Tiny-R1V, a novel lightweight 3B model that achieves faster inference and higher accuracy via a two-stage optimization, while unifying multimodal reasoning across multiple tasks and using fewer tokens. In the first stage, Tiny-R1V introduces Length-Informed Relative Policy Optimization (LIPO), a novel reinforcement learning method, to train each reasoning model. The LIPO is designed to dynamically adjusts advantages of responses within groups, that is, by prioritizing concise yet high-quality responses to encourage the generation of shorter and more accurate response. In the second stage, we propose Adaptive Model Merging (AMM), a training-free model merging method that merges multiple specialist models into a unified architecture. Specifically, AMM adaptively adjusts the weights of task vectors and robustly optimizes the merged vectors via a novel gradient projection regularization loss function, thus mitigating redundant conflicts between them. Extensive evaluations on ten widely-used reasoning benchmarks covering mathematics, structured data (charts, tables, documents), OCR, and general capabilities showcase the superior performance of Tiny-R1V, enabling lightweight models to excel in diverse multimodal reasoning tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々なタスクにまたがる顕著な能力を示してきたが、大きなモデルのサイズ、過度な考え、軽量シナリオにおける精度の妥協など、推論効率の面で多くの課題に直面している。
しかし,軽量MLLMの推論能力は乏しい。
そこで本研究では,複数タスクをまたいだマルチモーダル推論を統一し,トークンを少なくしながら,2段階最適化により高速な推論と高精度化を実現する,新しい軽量3BモデルTiny-R1Vを提案する。
第1段階で、Tiny-R1Vは、各推論モデルをトレーニングするために、新しい強化学習法であるLIPO(Longth-Informed Relative Policy Optimization)を導入した。
LIPOは、簡潔で高品質な応答を優先して、より短く、より正確な応答を生成することで、グループ内の応答の利点を動的に調整するように設計されている。
第2段階では,複数の専門的モデルを統合アーキテクチャにマージする,トレーニング不要なモデルマージ手法であるAdaptive Model Merging (AMM)を提案する。
具体的には、AMMはタスクベクトルの重みを適応的に調整し、新しい勾配射影正規化損失関数を介してマージベクトルを強固に最適化し、それら間の冗長な衝突を緩和する。
数学、構造化データ(チャート、テーブル、ドキュメント)、OCR、および一般的な機能を含む10の広く使われている推論ベンチマークに対する広範囲な評価は、Tiny-R1Vの優れた性能を示し、軽量モデルが多様なマルチモーダル推論タスクに優れていることを示している。
関連論文リスト
- OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [50.19188692497892]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning [27.498043430208085]
チェーン・オブ・ソート(CoT)推論への過剰依存はモデル性能を損なう可能性がある。
我々はCAR(Adaptive Reasoning)を提案する。
CARは、モデルの難易度に基づいて、短い回答と長い形式の推論を切り替える。
論文 参考訳(メタデータ) (2025-05-21T06:20:17Z) - SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models [21.933379266533098]
大規模言語モデル(LLM)は、推論品質と計算コストの間に重要なトレードオフをもたらす。
既存のサービス戦略では、固定されたモデルスケールや静的な2段階の投機的デコードを用いることが多い。
本稿では,LLM推論を適応的ルーティング問題として再定義する新しいフレームワークであるsystemnameを紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:46:28Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。