論文の概要: Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
- arxiv url: http://arxiv.org/abs/2505.05464v1
- Date: Thu, 08 May 2025 17:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.992116
- Title: Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
- Title(参考訳): ビジョンに推論をもたらす - モデルマージによる知覚と推論を理解する
- Authors: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He,
- Abstract要約: VLM(Vision-Language Models)は、視覚認識と、Large Language Models (LLMs)の推論などの一般的な機能を組み合わせたモデルである。
本研究では,異なるモデルのパラメータを結合するモデルマージによる知覚と推論について検討する。
知覚能力は主にモデルの初期段階の層にコード化されているのに対して、推論は中期から後期の層によって大きく促進されている。
- 参考スコア(独自算出の注目度): 32.70038648928894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.
- Abstract(参考訳): VLM(Vision-Language Models)は、Large Language Models (LLM) の推論などの一般的な能力と視覚的知覚を組み合わせたモデルである。
しかし、これらの2つの能力が組み合わさって貢献するメカニズムはいまだに理解されていない。
本研究では,異なるモデルのパラメータを結合するモデルマージによる知覚と推論について検討する。
同じ種類のモデルのマージにしばしば焦点をあてる以前の研究とは異なり、我々は、LLMの推論能力をVLMに組み込むことができるように、モダリティ間でのマージモデルを提案する。
実験により,モデルマージは,LLMからVLMへの推論能力の伝達を,学習のない方法で行うことができることを示した。
さらに、統合モデルを用いて、認識と推論の内部メカニズムと、マージがそれにどのように影響するかを理解する。
知覚能力は主にモデルの初期段階の層にコード化されているのに対して、推論は中期から後期の層によって大きく促進されている。
統合後、すべての層が推論に寄与し始めるのを観察する一方、層間での知覚能力の分布はほとんど変化しない。
これらの観察は、マルチモーダル統合と解釈のツールとしてのモデルマージの可能性に光を当てた。
関連論文リスト
- Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [45.509307983813336]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。
LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T14:41:36Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。