論文の概要: LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
- arxiv url: http://arxiv.org/abs/2604.00829v2
- Date: Mon, 06 Apr 2026 08:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.45405
- Title: LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
- Title(参考訳): LinguDistill:選択的クロスモーダル蒸留による視覚言語モデルの言語能力の回復
- Authors: Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva,
- Abstract要約: 事前訓練された言語モデル (LM) を視覚言語モデル (VLM) に適応させることで、表現のシフトやモーダル間干渉によるネイティブ言語能力を低下させることができる。
本研究では, 元の冷凍LMを教師として活用し, 言語能力を回復するアダプタフリー蒸留法であるLinguDistillを提案する。
- 参考スコア(独自算出の注目度): 19.168565866461584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers $\sim$10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.
- Abstract(参考訳): 事前訓練された言語モデル (LM) を視覚言語モデル (VLM) に適応させることは、多モーダル適応時に導入された表現シフトと相互モーダル干渉により、そのネイティブ言語能力を低下させることができる。
このような損失は、標準的な目的を用いたタスク固有の微調整であっても、回復が困難である。
以前のリカバリアプローチでは、アーキテクチャ上の複雑さを増大させ、推論時にパラメータを追加し、モデルと設定間の柔軟性を制限し、モダリティ固有のサブスペースを保守または分離するために中間アライメント層として機能する追加モジュールが導入される。
本研究では, 元の冷凍LMを教師として活用し, 言語能力を回復するアダプタフリー蒸留法であるLinguDistillを提案する。
両モデルのアーキテクチャを変更することなく,教師が生徒のマルチモーダル表現に公開する階層的KVキャッシュ共有を導入することで,視覚条件付き教師の指導を可能にする上での課題を克服する。
次に,教師の強い言語信号を言語集約データ上に選択的に蒸留し,言語能力の回復を図るとともに,学生の視覚的基盤をマルチモーダルなタスクに保存する。
その結果、LinguDistillは言語と知識のベンチマークで失ったパフォーマンスの10パーセントを$\sim$10%で回収し、視覚的なタスクでは同等のパフォーマンスを維持している。
本研究は,モジュールを追加せずに言語機能を回復できることを示し,マルチモーダルモデルにおけるモダリティ特異的な劣化に対する効率的かつ実用的な解決策を提供する。
関連論文リスト
- Compensating Visual Insufficiency with Stratified Language Guidance for Long-Tail Class Incremental Learning [50.795452298625996]
ロングテールクラスのインクリメンタルラーニング(LT CIL)は、テールクラスのサンプルの不足が学習を妨げているため、依然として非常に困難である。
これらの問題に対処するために、言語知識の情報性とスケーラビリティを活用します。
階層化適応型言語指導を導入し、学習可能な重みを利用してマルチスケールの意味表現をマージする。
論文 参考訳(メタデータ) (2026-03-23T08:50:00Z) - Continual-learning for Modelling Low-Resource Languages from Large Language Models [1.462912591880424]
低リソース言語用に構築された小型言語モデル(SLM)は破滅的な忘れ込みの課題を招いている。
本研究では,POS(Part-of-speech)ベースのコードスイッチングを用いた継続的学習戦略を提案する。
視覚的質問応答や言語モデリングタスクなどの視覚言語タスクの実験は、提案したアーキテクチャの成功を示す。
論文 参考訳(メタデータ) (2026-01-09T15:51:12Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization [9.349707150988893]
本稿では,視覚的インストラクションチューニング中にテキストのみの多言語データを注入する連続多言語統合戦略を提案する。
本手法は,視覚能力の低下を伴わない言語間の言語忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-28T16:26:52Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - No Train but Gain: Language Arithmetic for training-free Language Adapters enhancement [59.37775534633868]
本稿では,学習不要な後処理が可能な言語演算法を提案する。
提案手法の有効性を,MAD-Xに基づく言語間スキームの3つの下流課題に適用した。
論文 参考訳(メタデータ) (2024-04-24T08:52:40Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。