論文の概要: Towards Long-window Anchoring in Vision-Language Model Distillation
- arxiv url: http://arxiv.org/abs/2512.21576v1
- Date: Thu, 25 Dec 2025 08:39:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:57:05.757315
- Title: Towards Long-window Anchoring in Vision-Language Model Distillation
- Title(参考訳): 視覚・言語モデル蒸留における長期アンカリングに向けて
- Authors: Haoyi Zhou, Shuo Li, Tianyu Chen, Qi Song, Chonghan Gao, Jianxin Li,
- Abstract要約: 大きな視覚言語モデル(VLM)は、強い長文理解を示すが、その主流である小さな枝は、限られたウィンドウサイズで言語学的・写真的アライメントに失敗する。
知識蒸留により,窓の大きさのロータリー位置埋め込み(RoPE)を補完する学生の能力が向上することが判明した。
本稿では,2つの相補的コンポーネントを介し,長距離の注意機構の伝達を直接目的とするLAidを提案する。
- 参考スコア(独自算出の注目度): 32.38498360433994
- License:
- Abstract: While large vision-language models (VLMs) demonstrate strong long-context understanding, their prevalent small branches fail on linguistics-photography alignment for a limited window size. We discover that knowledge distillation improves students' capability as a complement to Rotary Position Embeddings (RoPE) on window sizes (anchored from large models). Building on this insight, we propose LAid, which directly aims at the transfer of long-range attention mechanisms through two complementary components: (1) a progressive distance-weighted attention matching that dynamically emphasizes longer position differences during training, and (2) a learnable RoPE response gain modulation that selectively amplifies position sensitivity where needed. Extensive experiments across multiple model families demonstrate that LAid-distilled models achieve up to 3.2 times longer effective context windows compared to baseline small models, while maintaining or improving performance on standard VL benchmarks. Spectral analysis also suggests that LAid successfully preserves crucial low-frequency attention components that conventional methods fail to transfer. Our work not only provides practical techniques for building more efficient long-context VLMs but also offers theoretical insights into how positional understanding emerges and transfers during distillation.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、強い長文理解を示すが、その主流である小さな枝は、限られたウィンドウサイズで言語と写真とのアライメントに失敗する。
知識蒸留は,窓サイズ(大型モデルと異なる)の回転位置埋め込み(RoPE)の補完として,学生の能力を向上させることが判明した。
この知見に基づいて,(1)訓練中により長い位置差を動的に強調するプログレッシブ距離重み付けアテンションマッチング,(2)必要に応じて位置感度を選択的に増幅する学習可能なRoPE応答ゲイン変調の2つの相補的コンポーネントによる長距離アテンション機構の移動を直接目的とするLAidを提案する。
複数のモデルファミリにわたる大規模な実験により、標準VLベンチマークの性能を維持したり改善したりしながら、LAIDを蒸留したモデルはベースラインの小さなモデルに比べて最大3.2倍の有効コンテキストウインドウを達成できた。
分光分析により、LAidは従来の方法では転送できない重要な低周波アテンション成分の保存に成功したことが示唆されている。
我々の研究は、より効率的な長文VLMを構築するための実用的な技術を提供するだけでなく、蒸留中に位置理解がどのように出現し、転送されるかに関する理論的知見も提供する。
関連論文リスト
- Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception [50.446538409259524]
VTTS(Visual Test-Time Scaling)は、推論中の反復推論を通じてMLLMの推論を強化する新しい手法である。
VTTSは、高信頼の階層的時間領域に注目することで人間の注意を模倣し、更新されたテキスト予測によってガイドされる。
新たに導入した Videochat-R1.5 モデルは,平均 5% 以上の向上を実現しています。
論文 参考訳(メタデータ) (2025-09-25T12:46:46Z) - Perception Before Reasoning: Two-Stage Reinforcement Learning for Visual Reasoning in Vision-Language Models [33.78309915588303]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を引き出すのに非常に有効であることが証明されている。
視覚言語モデル(VLM)の知覚能力と推論能力を両立させる2段階強化学習フレームワークを提案する。
提案した2段階強化学習プロセスの後,視覚言語モデルであるPeBR-R1を得た。
論文 参考訳(メタデータ) (2025-09-16T12:51:11Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - HKD4VLM: A Progressive Hybrid Knowledge Distillation Framework for Robust Multimodal Hallucination and Factuality Detection in VLMs [11.40571767579383]
本稿では、Responsible AIチャレンジの2つのトラックに対するソリューションを提案する。
本稿では,HKD4VLMと呼ばれる,先進的なハイブリッド知識蒸留フレームワークを提案する。
具体的には、このフレームワークをピラミッド様のプログレッシブオンライン蒸留と3次結合精製蒸留に分解することができる。
論文 参考訳(メタデータ) (2025-06-16T02:03:41Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Dude: Dual Distribution-Aware Context Prompt Learning For Large Vision-Language Model [27.56988000960972]
ドメイン共有コンテキストとクラス固有コンテキストの両方の2つのコンテキストに基づいた新しいフレームワークを導入する。
このような二重プロンプト手法は、大規模言語モデルで符号化された暗黙的および明示的な要素を結合することによって、モデルの特徴表現を強化する。
また、構築されたプロンプトと視覚トークンの関係を定量化するために、不均衡最適輸送(UOT)理論を定式化する。
論文 参考訳(メタデータ) (2024-07-05T13:15:29Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。