論文の概要: Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
- arxiv url: http://arxiv.org/abs/2509.26625v1
- Date: Tue, 30 Sep 2025 17:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.655431
- Title: Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training
- Title(参考訳): 見る前に見ることを学ぶ:言語の事前学習からLLMの視覚的優先順位をデミスティフィケートする
- Authors: Junlin Han, Shengbang Tong, David Fan, Yufan Ren, Koustuv Sinha, Philip Torr, Filippos Kokkinos,
- Abstract要約: 大規模言語モデル(LLM)は、テキストだけで訓練されているにもかかわらず、リッチな視覚的先行性を開発する。
これらの事前設定により、視覚タスクに対して比較的少量のマルチモーダルデータで潜在視覚機能をアンロックすることができる。
視覚的先行は、独自のスケーリング傾向と起源を持つ、分離可能な知覚と推論の先行から成り立っていることを示す。
- 参考スコア(独自算出の注目度): 37.93241751782069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), despite being trained on text alone, surprisingly develop rich visual priors. These priors allow latent visual capabilities to be unlocked for vision tasks with a relatively small amount of multimodal data, and in some cases, to perform visual tasks without ever having seen an image. Through systematic analysis, we reveal that visual priors-the implicit, emergent knowledge about the visual world acquired during language pre-training-are composed of separable perception and reasoning priors with unique scaling trends and origins. We show that an LLM's latent visual reasoning ability is predominantly developed by pre-training on reasoning-centric data (e.g., code, math, academia) and scales progressively. This reasoning prior acquired from language pre-training is transferable and universally applicable to visual reasoning. In contrast, a perception prior emerges more diffusely from broad corpora, and perception ability is more sensitive to the vision encoder and visual instruction tuning data. In parallel, text describing the visual world proves crucial, though its performance impact saturates rapidly. Leveraging these insights, we propose a data-centric recipe for pre-training vision-aware LLMs and verify it in 1T token scale pre-training. Our findings are grounded in over 100 controlled experiments consuming 500,000 GPU-hours, spanning the full MLLM construction pipeline-from LLM pre-training to visual alignment and supervised multimodal fine-tuning-across five model scales, a wide range of data categories and mixtures, and multiple adaptation setups. Along with our main findings, we propose and investigate several hypotheses, and introduce the Multi-Level Existence Bench (MLE-Bench). Together, this work provides a new way of deliberately cultivating visual priors from language pre-training, paving the way for the next generation of multimodal LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストだけで訓練されているにもかかわらず、驚くほどリッチな視覚的先行言語を開発する。
これらの事前設定により、視覚タスクに対して比較的少量のマルチモーダルデータで遅延視覚機能をアンロックすることができ、場合によっては画像を見ることなく視覚タスクを実行することができる。
系統的な分析により、言語事前学習中に得られた視覚世界に関する暗黙的・創発的な知識は、独自のスケーリング傾向と起源を持つ個別の知覚と推論によって構成されていることが明らかとなった。
LLMの潜在的な視覚的推論能力は、推論中心のデータ(例えば、コード、数学、アカデミック)を事前学習することで開発され、徐々に拡大していくことを示す。
言語事前学習から得られたこの推論は、伝達可能であり、視覚的推論に普遍的に適用できる。
対照的に、より広いコーパスから知覚が拡散しやすくなり、視覚エンコーダや視覚指示調律データに対して知覚能力がより敏感になる。
並行して、視覚世界を記述するテキストは極めて重要であるが、そのパフォーマンスへの影響は急速に飽和する。
これらの知見を生かして,視覚認識型LCMの事前学習のためのデータ中心のレシピを提案し,それを1Tトークンスケールの事前学習で検証する。
LLMの事前トレーニングから視覚アライメント、教師付きマルチモーダル微調整の5つのモデルスケール、幅広いデータカテゴリとミックス、複数のアダプティブセットアップに至るまで、100以上の制御された実験で50,000GPU時間を消費している。
主な知見とともに,いくつかの仮説を提案し,検討し,MLE-Bench(Multi-Level Existence Bench)を紹介した。
この研究は、言語事前学習から視覚的先入観を意図的に育む新しい方法を提供し、次世代のマルチモーダル LLM への道を開いた。
関連論文リスト
- Visual Jigsaw Post-Training Improves MLLMs [58.29961336087896]
大規模言語モデル(MLLM)における視覚的理解を強化するために設計された,汎用的な自己教師型ポストトレーニングフレームワークであるVisual Jigsawを紹介する。
視覚的な入力は分割され、シャッフルされ、モデルは自然言語で正しい置換を生成することで視覚情報を再構築する必要がある。
広範囲な実験により、微粒な知覚、時間的推論、空間的理解が大幅に改善された。
論文 参考訳(メタデータ) (2025-09-29T17:59:57Z) - Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文 参考訳(メタデータ) (2025-09-09T17:59:14Z) - Perceiving Beyond Language Priors: Enhancing Visual Comprehension and Attention in Multimodal Models [1.9253106218929117]
MLLM(Multimodal Large Language Models)は、視覚的な入力を完全に活用できないことが多い。
われわれのアプローチはまず、MLLMが画像領域の視覚的理解をどのように構築するかについての洞察を与え、その能力を増幅する技術を導入する。
本稿では,視覚的に依存するトークンの予測能力の定量化と,視覚的に困難なタスクの10 pt の高速化により,結果モデルのより優れたマルチモーダル理解を実証する。
論文 参考訳(メタデータ) (2025-05-08T20:04:27Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs [50.77984109941538]
近年のマルチモーダル LLM の視覚能力は, いまだに系統的な欠点を呈している。
CLIP-blind pairs'(CLIP-blind pairs)を識別する。
様々なCLIPに基づく視覚・言語モデルの評価を行い、CLIPモデルに挑戦する視覚パターンとマルチモーダルLLMの問題との間に顕著な相関関係を見出した。
論文 参考訳(メタデータ) (2024-01-11T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。