論文の概要: CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
- arxiv url: http://arxiv.org/abs/2602.20980v1
- Date: Tue, 24 Feb 2026 15:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.80234
- Title: CrystaL: Spontaneous Emergence of Visual Latents in MLLMs
- Title(参考訳): CrystaL: MLLMにおける視覚遅延の自然発生
- Authors: Yang Zhang, Danyang Li, Yuxuan Li, Xin Zhang, Tianyu Xie, Mingming Cheng, Xiang Li,
- Abstract要約: CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 55.34169914483764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved remarkable performance by integrating powerful language backbones with large-scale visual encoders. Among these, latent Chain-of-Thought (CoT) methods enable implicit reasoning in continuous hidden states, facilitating seamless vision-language integration and faster inference. However, existing heuristically predefined supervision signals in latent CoT provide limited guidance for preserving critical visual information in intermediate latent states. To address this limitation, we propose CrystaL (Crystallized Latent Reasoning), a single-stage framework with two paths to process intact and corrupted images, respectively. By explicitly aligning the attention patterns and prediction distributions across the two paths, CrystaL crystallizes latent representations into task-relevant visual semantics, without relying on auxiliary annotations or external modules. Extensive experiments on perception-intensive benchmarks demonstrate that CrystaL consistently outperforms state-of-the-art baselines, achieving substantial gains in fine-grained visual understanding while maintaining robust reasoning capabilities.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、強力な言語バックボーンと大規模ビジュアルエンコーダを統合することで、優れたパフォーマンスを実現している。
これらのうち、潜在Chain-of-Thought(CoT)メソッドは、連続した隠れ状態における暗黙の推論を可能にし、シームレスな視覚言語統合と高速な推論を容易にする。
しかし、潜在CoTにおける既存のヒューリスティックな事前定義された監視信号は、中間潜伏状態における重要な視覚情報を保存するための限られたガイダンスを提供する。
この制限に対処するため,我々はCrystaL (Crystallized Latent Reasoning) を提案する。
CrystaLは2つのパスにまたがる注意パターンと予測分布を明示的に調整することで、補助的なアノテーションや外部モジュールに頼ることなく、潜在表現をタスク関連ビジュアルセマンティクスに結晶化する。
CrystaLは、認識集約的なベンチマーク実験により、最先端のベースラインを一貫して上回り、堅牢な推論能力を維持しながら、きめ細かい視覚的理解を著しく向上させることを示した。
関連論文リスト
- Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs [55.61018839017648]
CoT(Chain-of- Thought)推論は、複雑な推論タスクにおいて、MLLM(Multimodal large language model)を大幅に改善した。
既存のアプローチは、主に長いテキスト推論軌道に依存し、安定した視覚的注意ポリシーを学ぶための限られたメカニズムを提供する。
地域レベルの視覚的注意に基づく報酬を導入する強化学習フレームワークを用いて訓練された視覚的推論モデルであるSAYOを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:33:23Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models [10.16893890191528]
マルチモーダル大言語モデル (MLLM) は、視覚プロジェクタを用いて、よく訓練された視覚エンコーダと大きな言語モデルをブリッジすることで、視覚的理解を実現する。
現在のアライメントアプローチは、視覚埋め込みを文脈的手がかりとして扱い、単にテキスト出力に自己回帰的監督を適用するだけである。
本稿では,初期視覚埋め込み生成において,プロジェクタを直接指導する手法として,LLM内の洗練された視覚埋め込みを利用するBASICを提案する。
論文 参考訳(メタデータ) (2025-08-09T09:00:45Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [7.353998772647553]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。