論文の概要: Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14071v1
- Date: Tue, 20 May 2025 08:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.93056
- Title: Textual Steering Vectors Can Improve Visual Understanding in Multimodal Large Language Models
- Title(参考訳): テキストステアリングベクトルは多モーダル大言語モデルにおける視覚的理解を改善する
- Authors: Woody Haosheng Gan, Deqing Fu, Julian Asilis, Ollie Liu, Dani Yogatama, Vatsal Sharan, Robin Jia, Willie Neiswanger,
- Abstract要約: テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。
平均シフトはCV-Bench上の空間関係の精度を+7.3%、精度を+3.3%向上させる。
その結果、テキストステアリングベクトルは、最小限のデータ収集と計算オーバーヘッドでMLLMのグラウンド化を強化するための強力で効率的なメカニズムとして強調された。
- 参考スコア(独自算出の注目度): 42.449334670206824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Steering methods have emerged as effective and targeted tools for guiding large language models' (LLMs) behavior without modifying their parameters. Multimodal large language models (MLLMs), however, do not currently enjoy the same suite of techniques, due in part to their recency and architectural diversity. Inspired by this gap, we investigate whether MLLMs can be steered using vectors derived from their text-only LLM backbone, via sparse autoencoders (SAEs), mean shift, and linear probing. We find that text-derived steering consistently enhances multimodal accuracy across diverse MLLM architectures and visual tasks. In particular, mean shift boosts spatial relationship accuracy on CV-Bench by up to +7.3% and counting accuracy by up to +3.3%, outperforming prompting and exhibiting strong generalization to out-of-distribution datasets. These results highlight textual steering vectors as a powerful, efficient mechanism for enhancing grounding in MLLMs with minimal additional data collection and computational overhead.
- Abstract(参考訳): ステアリングメソッドは,パラメータを変更することなく,大規模言語モデル(LLM)の動作を誘導するための,効率的かつ目標とするツールとして登場した。
しかし、Multimodal Large Language Model (MLLM) は、その正確さとアーキテクチャの多様性のために、現時点では同じ技術群を享受していない。
このギャップにインスパイアされたMLLMは,テキストのみのLLMバックボーンから得られるベクトルを用いて,スパースオートエンコーダ(SAE),平均シフト,線形プローブを用いて操舵することができるかを検討する。
テキスト由来のステアリングは多様なMLLMアーキテクチャや視覚タスクのマルチモーダル精度を一貫して向上させる。
特に、平均シフトはCV-Bench上の空間関係の精度を+7.3%まで向上させ、その精度を+3.3%まで向上させ、アウト・オブ・ディストリビューションデータセットへの強力な一般化を示す。
これらの結果から,テキストステアリングベクトルはMLLMのグラウンド化を最小限の追加データ収集と計算オーバーヘッドで向上するための強力で効率的なメカニズムとして強調された。
関連論文リスト
- Visual Instruction Bottleneck Tuning [24.864232100295133]
マルチモーダルな大言語モデル(MLLM)は、分散シフトの下で不慣れなクエリに遭遇した場合、性能が低下する。
MLLMの一般化を改善する既存の方法は、通常、より多くの命令データまたはより大きな高度なモデルアーキテクチャを必要とする。
我々は、表現学習の観点から、分布シフト下でのMLLMの堅牢性を高めるための代替アプローチを採っている。
論文 参考訳(メタデータ) (2025-05-20T05:24:53Z) - Large Language-Geometry Model: When LLM meets Equivariance [53.8505081745406]
本稿では,3次元物理システムを表現するための新しいフレームワークであるEquiLLMを提案する。
EquiLLMは分子動力学シミュレーション,ヒトの動作シミュレーション,抗体設計など,従来の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-16T14:50:49Z) - Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance [11.753349115726952]
そこで我々は,新しいアンサンブル法であるDiverse Fingerprint Ensemble (DFPE)を提案する。
提案手法は,(1)応答型"フィンガープリント"パターンに基づくクラスタリングモデル,(2)量子化に基づくフィルタリング機構の適用,(3)残余モデルに適応重みを割り当てることである。
MMLU(Massive Multitask Language Understanding)ベンチマークの実験では、DFPEは、全体的な精度が3%、規律レベルの精度が5%向上し、最高のシングルモデルを上回った。
論文 参考訳(メタデータ) (2025-01-29T08:44:45Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。
イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。
本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。