論文の概要: FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.21187v1
- Date: Thu, 29 Jan 2026 02:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.524857
- Title: FRISM: Fine-Grained Reasoning Injection via Subspace-Level Model Merging for Vision-Language Models
- Title(参考訳): FRISM:視覚言語モデルのためのサブスペースレベルモデルマージによる微粒化推論インジェクション
- Authors: Chenyu Huang, Peng Ye, Xudong Tan, Jinhan Mu, Shenghe Zheng, Li Shen, Tao Chen,
- Abstract要約: FRISM(Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
実験により、FRISMはモデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することが示された。
- 参考スコア(独自算出の注目度): 20.47311573790516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficiently enhancing the reasoning capabilities of Vision-Language Models (VLMs) by merging them with Large Reasoning Models (LRMs) has emerged as a promising direction. However, existing methods typically operate at a coarse-grained layer level, which often leads to a trade-off between injecting reasoning capabilities and preserving visual capabilities. To address this limitation, we propose {FRISM} (Fine-grained Reasoning Injection via Subspace-level model Merging), a fine-grained reasoning injection framework based on subspace-level model merging. Observing that reasoning capabilities are encoded in distinct subspaces, FRISM decomposes LRM task vectors via Singular Value Decomposition (SVD) and adaptively tunes the scaling coefficients of each subspace through learning to realize fine-grained reasoning injection. Furthermore, we introduce a label-free self-distillation learning strategy with a dual-objective optimization using common vision-language perception datasets. Extensive experiments demonstrate that FRISM effectively improves reasoning capabilities without compromising the model's original visual capabilities by consistently achieving state-of-the-art performance across diverse visual reasoning benchmarks.
- Abstract(参考訳): 視覚言語モデル(VLM)とLRM(Large Reasoning Models)を併用することで,視覚言語モデル(VLM)の推論能力を効果的に向上する。
しかし、既存のメソッドは一般的に粗い層レベルで動作し、しばしば推論能力の注入と視覚的能力の保存のトレードオフにつながる。
この制限に対処するため、サブスペースレベルのモデルマージに基づく微粒な推論注入フレームワークである {FRISM} (Fine-fine Reasoning Injection via Subspace-level Model Merging)を提案する。
FRISMは、推論機能が異なる部分空間に符号化されていることを観察し、Singular Value Decomposition (SVD)を介してLEMタスクベクトルを分解し、学習を通して各部分空間のスケーリング係数を適応的に調整し、きめ細かい推論インジェクションを実現する。
さらに、共通の視覚言語認識データセットを用いた二重目的最適化を用いたラベルなし自己蒸留学習戦略を導入する。
大規模な実験により、FRISMは様々な視覚的推論ベンチマークにまたがる最先端のパフォーマンスを一貫して達成することで、モデルの本来の視覚能力を損なうことなく推論能力を効果的に改善することを示した。
関連論文リスト
- LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - LVLM-Aided Alignment of Task-Specific Vision Models [49.96265491629163]
タスク固有の視覚モデルは、高い領域において不可欠である。
本稿では,タスク固有の視覚モデルと人間のドメイン知識を協調する,新しい,効率的な手法を提案する。
提案手法は, モデル動作と人間の仕様との整合性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-26T11:11:25Z) - Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。
有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。
IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文 参考訳(メタデータ) (2025-12-05T12:09:39Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - Video-STAR: Reinforcing Open-Vocabulary Action Recognition with Tools [41.993750134878766]
Video-STARは、オープン語彙行動認識のためのツール強化学習とコンテキストサブモーション分解を調和させるフレームワークである。
アクションをモノリシックなエンティティとして扱う従来の方法とは異なり、我々のアプローチは、アクションをきめ細かなマッチングのための差別的なサブモーションに革新的に分解する。
本手法は,テキスト中心の推論から視覚的接地推論へ伝達する,明示的な監督を伴わずに,外部ツールを自律的に活用し,サブモーションパターンの優先順位付けを行う。
論文 参考訳(メタデータ) (2025-10-09T17:20:44Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。