論文の概要: HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.19072v1
- Date: Mon, 23 Jun 2025 19:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.361823
- Title: HAWAII: Hierarchical Visual Knowledge Transfer for Efficient Vision-Language Models
- Title(参考訳): HAWAII:高能率視覚言語モデルのための階層的視覚知識伝達
- Authors: Yimu Wang, Mozhgan Nasr Azadani, Sean Sedwards, Krzysztof Czarnecki,
- Abstract要約: HAWAIIは、複数の視覚専門家から知識を単一の視覚エンコーダに抽出する新しいフレームワークである。
教師間の対立を軽減するため,教師固有のローランド適応 (LoRA) アダプタを提案する。
きめ細かいレベルでは、各教師の最も情報性の高いトークンを適応的に強調するためにトークン重要度スコアが用いられる。
粗粒度レベルでは、複数の教師の知識を要約し、ルータ付き汎用LoRAアダプタを用いて学生に伝達する。
- 参考スコア(独自算出の注目度): 12.58203406442855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the visual understanding ability of vision-language models (VLMs) is crucial for enhancing their performance across various tasks. While using multiple pretrained visual experts has shown great promise, it often incurs significant computational costs during training and inference. To address this challenge, we propose HAWAII, a novel framework that distills knowledge from multiple visual experts into a single vision encoder, enabling it to inherit the complementary strengths of several experts with minimal computational overhead. To mitigate conflicts among different teachers and switch between different teacher-specific knowledge, instead of using a fixed set of adapters for multiple teachers, we propose to use teacher-specific Low-Rank Adaptation (LoRA) adapters with a corresponding router. Each adapter is aligned with a specific teacher, avoiding noisy guidance during distillation. To enable efficient knowledge distillation, we propose fine-grained and coarse-grained distillation. At the fine-grained level, token importance scores are employed to emphasize the most informative tokens from each teacher adaptively. At the coarse-grained level, we summarize the knowledge from multiple teachers and transfer it to the student using a set of general-knowledge LoRA adapters with a router. Extensive experiments on various vision-language tasks demonstrate the superiority of HAWAII, compared to the popular open-source VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)の視覚的理解能力の向上は,様々なタスクにおける性能向上に不可欠である。
複数の事前訓練されたビジュアルエキスパートを使用することは、大きな可能性を秘めている一方で、トレーニングと推論の間にかなりの計算コストを発生させることが多い。
この課題に対処するために,複数の視覚的専門家から知識を単一の視覚エンコーダに抽出し,計算オーバーヘッドを最小限に抑えた複数の専門家の補完的強みを継承する新しいフレームワークであるHAWAIIを提案する。
異なる教師間の対立を緩和し、異なる教師固有の知識を切り替えるために、複数の教師に固定されたアダプタを使用する代わりに、教師固有のローランド適応(LoRA)アダプタを対応するルータで使用することを提案する。
それぞれのアダプタは特定の教師と整列し、蒸留中のノイズの多い指導を避ける。
効率的な知識蒸留を可能にするため,細粒度・粗粒度蒸留法を提案する。
きめ細かいレベルでは、各教師の最も情報性の高いトークンを適応的に強調するためにトークン重要度スコアが用いられる。
粗粒度レベルでは、複数の教師の知識を要約し、ルータ付き汎用LoRAアダプタを用いて学生に伝達する。
様々な視覚言語タスクに関する大規模な実験は、人気のあるオープンソースVLMと比較して、HAWAIIの優位性を示している。
関連論文リスト
- Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition [24.293448609592147]
マルチ教師知識蒸留(Multi-Teacher Knowledge Distillation, KD)は、教師プールから学生ネットワークへ多様な知識を伝達する。
本稿では,MTKD-RL(Multi-Teacher Knowledge Distillation with Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-02-22T09:31:24Z) - Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning [29.33199582163445]
ビジョン・ファンデーション・モデル (VFM) は、多くの下流タスクにおいて卓越した性能を示した。
それら固有の表現バイアスのため、VFMは異なる視覚タスクにまたがる利点と欠点を示す。
本稿では,VFM 委員会からの知識を適応的に蒸留し,マルチタスク学習を強化する,新規で汎用性の高い "Swiss Army Knife" (SAK) ソリューションを提案する。
論文 参考訳(メタデータ) (2024-10-18T17:32:39Z) - UNIC: Universal Classification Models via Multi-teacher Distillation [29.299698704883813]
我々は、いくつかの補完的な事前訓練されたモデルから得られるユニークなエンコーダを学ぼうとしている。
このようなエンコーダをマルチティーチンガー蒸留により学習することを提案する。
論文 参考訳(メタデータ) (2024-08-09T14:18:57Z) - Hybrid Distillation: Connecting Masked Autoencoders with Contrastive
Learners [102.20090188997301]
コントラスト学習(CL)とマスクド画像モデリング(MIM)の強みを組み合わせたモデルを得る方法について検討する。
識別と多様性の両立を図るため, 単純かつ効果的なハイブリッド蒸留戦略を提案する。
実験の結果、Hybrid Distillは異なるベンチマークで優れた性能が得られることが証明された。
論文 参考訳(メタデータ) (2023-06-28T02:19:35Z) - Adaptive Multi-Teacher Knowledge Distillation with Meta-Learning [16.293262022872412]
適応型多教師知識蒸留とメタラーニング(MMKD)を提案する。
メタウェイトネットワークの助けを借りて、出力層と中間層における多様な教師の知識を活用し、生徒のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-06-11T09:38:45Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Adaptive Multi-Teacher Multi-level Knowledge Distillation [11.722728148523366]
適応型多段階知識蒸留学習フレームワーク(AMTML-KD)を提案する。
i)各教師と潜在表現を関連付けて、インスタンスレベルの教師の重要性の重みを適応的に学習する。
そのため、学生モデルはAMMTML-KDを介して複数の教師から多レベルの知識を学ぶことができます。
論文 参考訳(メタデータ) (2021-03-06T08:18:16Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Neural Multi-Task Learning for Teacher Question Detection in Online
Classrooms [50.19997675066203]
教師の音声記録から質問を自動的に検出するエンドツーエンドのニューラルネットワークフレームワークを構築している。
マルチタスク学習手法を取り入れることで,質問の種類によって意味的関係の理解を深めることが可能となる。
論文 参考訳(メタデータ) (2020-05-16T02:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。