論文の概要: Seeing to Generalize: How Visual Data Corrects Binding Shortcuts
- arxiv url: http://arxiv.org/abs/2602.15183v1
- Date: Mon, 16 Feb 2026 20:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.902199
- Title: Seeing to Generalize: How Visual Data Corrects Binding Shortcuts
- Title(参考訳): 一般化への展望:ビジュアルデータのバインディングショートカットの修正方法
- Authors: Nicolas Buzeta, Felipe del Rio, Cristian Hinostroza, Denis Parra, Hans Lobel, Rodrigo Toro Icarte,
- Abstract要約: ビジョン言語モデルは、純粋にテキストのみのタスクにおいて、基盤となるLarge Language Modelよりもパフォーマンスが高い。
視覚訓練がモデルの内部結合戦略を変えることを示す。
本研究は,1つのモダリティに根ざしたタスクにおいても,クロスモーダルトレーニングが推論と一般化を促進することを示唆している。
- 参考スコア(独自算出の注目度): 5.724899979571379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) are designed to extend Large Language Models (LLMs) with visual capabilities, yet in this work we observe a surprising phenomenon: VLMs can outperform their underlying LLMs on purely text-only tasks, particularly in long-context information retrieval. To investigate this effect, we build a controlled synthetic retrieval task and find that a transformer trained only on text achieves perfect in-distribution accuracy but fails to generalize out of distribution, while subsequent training on an image-tokenized version of the same task nearly doubles text-only OOD performance. Mechanistic interpretability reveals that visual training changes the model's internal binding strategy: text-only training encourages positional shortcuts, whereas image-based training disrupts them through spatial translation invariance, forcing the model to adopt a more robust symbolic binding mechanism that persists even after text-only examples are reintroduced. We further characterize how binding strategies vary across training regimes, visual encoders, and initializations, and show that analogous shifts occur during pretrained LLM-to-VLM transitions. Our findings suggest that cross-modal training can enhance reasoning and generalization even for tasks grounded in a single modality.
- Abstract(参考訳): 視覚言語モデル(VLM)は、大規模言語モデル(LLM)を視覚能力で拡張するために設計されているが、この研究では驚くべき現象が観察されている。
この効果を調べるために、制御された合成検索タスクを構築し、テキストのみを訓練したトランスフォーマーが完全な分配精度を達成できるが、分布の一般化に失敗するのに対して、同じタスクのイメージトークン化されたバージョンでのトレーニングは、テキストのみのOOD性能をほぼ2倍に向上させる。
テキストのみのトレーニングは位置的ショートカットを奨励する一方、画像ベースのトレーニングは空間的翻訳の不変性を通じてそれらを妨害し、テキストのみの例が再導入されても継続するより堅牢なシンボル的バインディング機構をモデルに導入せざるを得ない。
さらに, トレーニング体制, 視覚エンコーダ, 初期化において, 結合戦略がどう変化するかを明らかにし, 予め訓練されたLLM-VLM遷移の間に, 類似のシフトが発生することを示す。
本研究は,1つのモダリティに根ざしたタスクにおいても,クロスモーダルトレーニングが推論と一般化を促進することを示唆している。
関連論文リスト
- Towards Understanding Multimodal Fine-Tuning: Spatial Features [25.349396112139214]
Vision-Language Models (VLM) は、事前訓練された言語モデルとビジョンエンコーダをペアリングすることで、幅広いタスクにおいて強力なパフォーマンスを達成する。
本稿では,ステージワイドモデル差分法によるVLM適応の最初の力学解析について述べる。
論文 参考訳(メタデータ) (2026-02-06T18:48:18Z) - Cross-Modal Attention Guided Unlearning in Vision-Language Models [16.460281156521646]
VLM(Vision-Language Models)は、マルチモーダル理解および推論タスクにおいて、膨大な能力を示す。
VLMは、クエリの視覚的コンテキストがテキストに加えてセンシティブな情報も含んでいる可能性があるため、このプロセスに複雑さの層を追加します。
我々は、軽量で効率的なVLMアンラーニングフレームワークであるCross-Modal Attentioned Unlearning(CAGUL)を定式化する。
論文 参考訳(メタデータ) (2025-10-08T21:21:59Z) - MetaMorph: Multimodal Understanding and Generation via Instruction Tuning [57.35160715164359]
視覚予測インストラクションチューニング(VPiT)は、視覚的インストラクションチューニングへのシンプルで効果的な拡張である。
VPiT は LLM に、画像およびテキストデータの入力シーケンスから離散テキストトークンと連続的な視覚トークンを予測するように教える。
MetaMorphモデルをトレーニングし、視覚的理解と生成の両面での競争性能を達成する。
論文 参考訳(メタデータ) (2024-12-18T18:58:50Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - EVE: Efficient Vision-Language Pre-training with Masked Prediction and
Modality-Aware MoE [66.48689706116808]
効率的なビジョン・ランガグ(Efficient Vision-languagE)は、1つの統合された事前訓練タスクによってのみ事前訓練された1つの統合マルチモーダルトランスである。
Eveは、Modality-aware sparse Mixture-of-Expertsと統合された共有トランスフォーマーネットワーク内の視覚と言語をエンコードする。
Eveは、視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおける最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-08-23T07:36:30Z) - Seeing What You Miss: Vision-Language Pre-training with Semantic
Completion Learning [22.464424641734652]
クロスモーダルアライメントは視覚言語事前学習モデルに不可欠である。
本研究では,グローバル・ローカル・アライメントを支援するセマンティック・コンプリート学習タスクを提案する。
また、フレキシブル・ビジョン・エンコーダを導入し、画像テキストとビデオテキストのマルチモーダルタスクを同時に実行できるようにした。
論文 参考訳(メタデータ) (2022-11-24T06:39:16Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。