論文の概要: Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
- arxiv url: http://arxiv.org/abs/2505.05464v1
- Date: Thu, 08 May 2025 17:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.992116
- Title: Bring Reason to Vision: Understanding Perception and Reasoning through Model Merging
- Title(参考訳): ビジョンに推論をもたらす - モデルマージによる知覚と推論を理解する
- Authors: Shiqi Chen, Jinghan Zhang, Tongyao Zhu, Wei Liu, Siyang Gao, Miao Xiong, Manling Li, Junxian He,
- Abstract要約: VLM(Vision-Language Models)は、視覚認識と、Large Language Models (LLMs)の推論などの一般的な機能を組み合わせたモデルである。
本研究では,異なるモデルのパラメータを結合するモデルマージによる知覚と推論について検討する。
知覚能力は主にモデルの初期段階の層にコード化されているのに対して、推論は中期から後期の層によって大きく促進されている。
- 参考スコア(独自算出の注目度): 32.70038648928894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) combine visual perception with the general capabilities, such as reasoning, of Large Language Models (LLMs). However, the mechanisms by which these two abilities can be combined and contribute remain poorly understood. In this work, we explore to compose perception and reasoning through model merging that connects parameters of different models. Unlike previous works that often focus on merging models of the same kind, we propose merging models across modalities, enabling the incorporation of the reasoning capabilities of LLMs into VLMs. Through extensive experiments, we demonstrate that model merging offers a successful pathway to transfer reasoning abilities from LLMs to VLMs in a training-free manner. Moreover, we utilize the merged models to understand the internal mechanism of perception and reasoning and how merging affects it. We find that perception capabilities are predominantly encoded in the early layers of the model, whereas reasoning is largely facilitated by the middle-to-late layers. After merging, we observe that all layers begin to contribute to reasoning, whereas the distribution of perception abilities across layers remains largely unchanged. These observations shed light on the potential of model merging as a tool for multimodal integration and interpretation.
- Abstract(参考訳): VLM(Vision-Language Models)は、Large Language Models (LLM) の推論などの一般的な能力と視覚的知覚を組み合わせたモデルである。
しかし、これらの2つの能力が組み合わさって貢献するメカニズムはいまだに理解されていない。
本研究では,異なるモデルのパラメータを結合するモデルマージによる知覚と推論について検討する。
同じ種類のモデルのマージにしばしば焦点をあてる以前の研究とは異なり、我々は、LLMの推論能力をVLMに組み込むことができるように、モダリティ間でのマージモデルを提案する。
実験により,モデルマージは,LLMからVLMへの推論能力の伝達を,学習のない方法で行うことができることを示した。
さらに、統合モデルを用いて、認識と推論の内部メカニズムと、マージがそれにどのように影響するかを理解する。
知覚能力は主にモデルの初期段階の層にコード化されているのに対して、推論は中期から後期の層によって大きく促進されている。
統合後、すべての層が推論に寄与し始めるのを観察する一方、層間での知覚能力の分布はほとんど変化しない。
これらの観察は、マルチモーダル統合と解釈のツールとしてのモデルマージの可能性に光を当てた。
関連論文リスト
- Mechanistic Indicators of Understanding in Large Language Models [2.752171077382186]
我々は,Large Language Models (LLM) が,接続の確認に係わる理解と機能的に類似した内部構造を発達させることを論じる。
概念的理解は、モデルが潜在空間の方向として「機能」を形成し、何かの多様な表現の間のつながりを学ぶときに現れる。
第二に、状態の理解は、モデルが機能間の連続した事実的なつながりを学び、世界の変化を動的に追跡するときに現れる。
第三に、モデルが記憶された事実の集まりに頼るのをやめ、これらの事実を繋ぐ「循環」を発見すると、原則化された理解が生まれる。
論文 参考訳(メタデータ) (2025-07-07T20:26:31Z) - From Black Boxes to Transparent Minds: Evaluating and Enhancing the Theory of Mind in Multimodal Large Language Models [17.235722538085263]
本研究では,大言語モデル(MLLM)における心の理論(ToM)の解釈可能性に基づく評価を実現するための内部メカニズムに基づくアプローチを採用する。
まず,マルチモーダルなToMテストデータセットであるGridToMを構築した。
次に,マルチモーダル大モデルにおける注目の頭脳は,視点によって認知情報を識別し,ToM能力の証拠となることを示す。
論文 参考訳(メタデータ) (2025-06-17T06:27:42Z) - From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。
我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。
提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-06-08T20:52:34Z) - Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。
わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。
Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文 参考訳(メタデータ) (2025-04-17T06:16:11Z) - A Survey on Mechanistic Interpretability for Multi-Modal Foundation Models [74.48084001058672]
基礎モデルの台頭は機械学習の研究に変化をもたらした。
マルチモーダル・ファンデーション・モデル(MMFM)は、ユニモーダル・フレームワークを超えて、ユニークな解釈可能性の課題を提起する。
本研究は,(1)多モーダルモデルへのLLM解釈可能性法の適応,(2)単モーダル言語モデルとクロスモーダルシステムとの機械的差異の理解の2つの重要な側面について考察する。
論文 参考訳(メタデータ) (2025-02-22T20:55:26Z) - Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment [53.90425382758605]
モデルの内部構造が微調整によってどのように変化し、新しいマルチモーダルタスクを専門化するかを示す。
我々の研究は、微調整によってマルチモーダル表現がどのように進化するかに光を当て、マルチモーダルタスクにおけるモデル適応を解釈するための新しい視点を提供する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [45.509307983813336]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。
LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T14:41:36Z) - Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。
等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。
7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文 参考訳(メタデータ) (2024-10-17T16:04:07Z) - Fact :Teaching MLLMs with Faithful, Concise and Transferable Rationales [102.54274021830207]
MLLMの教えに忠実で簡潔で伝達しやすい多モーダル論理を生成するために設計された新しいパラダイムであるFactを紹介する。
プログラミングパラダイムからエンドツーエンドパラダイムに転送可能な合理性をフィルタリングして、転送可能性を保証する。
また,画像とテキストの相関性が高いため,幻覚の低減も図っている。
論文 参考訳(メタデータ) (2024-04-17T07:20:56Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。