論文の概要: Multimodal Function Vectors for Spatial Relations
- arxiv url: http://arxiv.org/abs/2510.02528v1
- Date: Thu, 02 Oct 2025 19:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.15815
- Title: Multimodal Function Vectors for Spatial Relations
- Title(参考訳): 空間関係のためのマルチモーダル関数ベクトル
- Authors: Shuhao Fu, Esther Goldberg, Ying Nian Wu, Hongjing Lu,
- Abstract要約: 視覚言語モデルOpenFlamingo-4Bの注意点のサブセットが空間関係の表現を伝達する役割を担っていることを示す。
これらのアテンションヘッドの活性化は、関数ベクトルと呼ばれ、リレーショナルタスクにおけるLMMのパフォーマンスを変更するために抽出し、操作することができる。
- 参考スコア(独自算出の注目度): 33.20813174218433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Models (LMMs) demonstrate impressive in-context learning abilities from limited multimodal demonstrations, yet the internal mechanisms supporting such task learning remain opaque. Building on prior work of large language models, we show that a small subset of attention heads in the vision-language model OpenFlamingo-4B is responsible for transmitting representations of spatial relations. The activations of these attention heads, termed function vectors, can be extracted and manipulated to alter an LMM's performance on relational tasks. First, using both synthetic and real image datasets, we apply causal mediation analysis to identify attention heads that strongly influence relational predictions, and extract multimodal function vectors that improve zero-shot accuracy at inference time. We further demonstrate that these multimodal function vectors can be fine-tuned with a modest amount of training data, while keeping LMM parameters frozen, to significantly outperform in-context learning baselines. Finally, we show that relation-specific function vectors can be linearly combined to solve analogy problems involving novel and untrained spatial relations, highlighting the strong generalization ability of this approach. Our results show that LMMs encode spatial relational knowledge within localized internal structures, which can be systematically extracted and optimized, thereby advancing our understanding of model modularity and enhancing control over relational reasoning in LMMs.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、限られたマルチモーダルなデモンストレーションから、コンテキスト内学習能力を示すが、そのようなタスク学習をサポートする内部メカニズムはいまだ不透明である。
大規模言語モデルの先行研究に基づいて,視覚言語モデル OpenFlamingo-4B における注意のサブセットが空間関係の表現を伝達する役割を担っていることを示す。
これらのアテンションヘッドの活性化は、関数ベクトルと呼ばれ、リレーショナルタスクにおけるLMMのパフォーマンスを変更するために抽出し、操作することができる。
まず、合成画像と実画像の両方を用いて、因果媒介分析を適用し、関係予測に強く影響を及ぼす注目ヘッドを特定し、推論時にゼロショット精度を向上させるマルチモーダル関数ベクトルを抽出する。
さらに、これらのマルチモーダル関数ベクトルは、LMMパラメータを凍結したまま、控えめな量のトレーニングデータで微調整され、コンテキスト内学習ベースラインを大幅に上回ることを示す。
最後に,関係固有関数ベクトルを線形に組み合わせることで,新しい空間関係と訓練されていない空間関係の類似問題を解くことができ,このアプローチの強い一般化能力を強調する。
この結果から,LMMは局所的内部構造内の空間的関係知識を符号化し,モデルモジュラリティの理解を深め,LMMのリレーショナル推論の制御を強化することが示唆された。
関連論文リスト
- Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation [89.5123417007126]
空間的行動空間をLMM(Large Multimodal Models)に理解させる方法について述べる。
また,これらの課題を解決する上で,LMMの推論能力を完全に活用する方法を示す。
その結果、ReasonManipという名前の7Bバックボーン上に構築された推論モデルは、3つの顕著な利点を示しています。
論文 参考訳(メタデータ) (2025-05-19T06:00:14Z) - LLM Enhancers for GNNs: An Analysis from the Perspective of Causal Mechanism Identification [19.389891710579022]
グラフニューラルネットワーク(GNN)の入力として使用されるノード表現を最適化する機能拡張器として,大規模言語モデル(LLM)を用いて検討する。
解析結果に基づいて,LLMエンハンサーとGNN間の情報伝達を改善するためのプラグアンドプレイ最適化モジュールを設計する。
論文 参考訳(メタデータ) (2025-05-13T06:29:25Z) - Large Multi-modal Models Can Interpret Features in Large Multi-modal Models [51.485491249693155]
まず、スパースオートエンコーダを用いて表現を人間の理解可能な特徴に分解する。
LMM自体がSAEで学んだオープンセマンティックな特徴を解釈するための自動解釈フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T14:41:36Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - F-LMM: Grounding Frozen Large Multimodal Models [53.8059045627934]
我々は,人間とAIの会話において,F-LMM(F-LMM)を解凍したLMMを提示する。
単語と画素の対応が視覚的接地によって誘導されるという事実は、十分に訓練されたLMMの注意機構に本質的に存在するという事実に基づいている。
表現セグメンテーションと単視的物語グラウンドベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2024-06-09T15:14:26Z) - Towards Modeling Learner Performance with Large Language Models [7.002923425715133]
本稿では,LLMのパターン認識とシーケンスモデリング機能が,知識追跡の領域にまで拡張できるかどうかを検討する。
ゼロショットプロンプト(ゼロショットプロンプト)とモデル微調整(モデル微調整)の2つの手法と,既存のLLM以外の知識追跡手法を比較した。
LLMベースのアプローチは最先端のパフォーマンスを達成しないが、微調整のLLMは素早いベースラインモデルの性能を上回り、標準的なベイズ的知識追跡手法と同等に機能する。
論文 参考訳(メタデータ) (2024-02-29T14:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。