論文の概要: AMMKD: Adaptive Multimodal Multi-teacher Distillation for Lightweight Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.00039v1
- Date: Sat, 23 Aug 2025 04:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.267162
- Title: AMMKD: Adaptive Multimodal Multi-teacher Distillation for Lightweight Vision-Language Models
- Title(参考訳): AMMKD:軽量ビジョンランゲージモデルのための適応型マルチモーダルマルチ教師蒸留
- Authors: Yuqi Li, Chuanguang Yang, Junhao Dong, Zhengtao Yao, Haoyan Xu, Zeyu Dong, Hansheng Zeng, Zhulin An, Yingli Tian,
- Abstract要約: 本稿では, マルチモーダルな特徴融合, マルチティーチンガー蒸留, 適応最適化を統合し, 軽量で効果的な検索モデルを提供する新しいフレームワークを提案する。
3つのベンチマークデータセットの実験では、AMMKDはモデル複雑性を著しく低減し、その有効性と柔軟性を検証しながら、優れたパフォーマンスを達成することが示されている。
- 参考スコア(独自算出の注目度): 35.71783914954563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large-scale visual language pretraining (VLP) models has driven widespread adoption of image-text retrieval tasks. However, their deployment on mobile devices remains limited due to large model sizes and computational complexity. We propose Adaptive Multi-Modal Multi-Teacher Knowledge Distillation (AMMKD), a novel framework that integrates multi-modal feature fusion, multi-teacher distillation, and adaptive optimization to deliver lightweight yet effective retrieval models. Specifically, our method begins with a feature fusion network that extracts and merges discriminative features from both the image and text modalities. To reduce model parameters and further improve performance, we design a multi-teacher knowledge distillation framework to pre-train two CLIP teacher models. We decouple modalities by pre-computing and storing text features as class vectors via the teacher text encoder to enhance efficiency. To better align teacher and student outputs, we apply KL scatter for probability distribution matching. Finally, we design an adaptive dynamic weighting scheme that treats multi-teacher distillation as a multi-objective optimization problem. By leveraging gradient space diversity, we dynamically adjust the influence of each teacher, reducing conflicts and guiding the student toward more optimal learning directions. Extensive experiments on three benchmark datasets demonstrate that AMMKD achieves superior performance while significantly reducing model complexity, validating its effectiveness and flexibility.
- Abstract(参考訳): 大規模視覚言語事前学習(VLP)モデルの成功により、画像テキスト検索タスクが広く採用されている。
しかし、大きなモデルサイズと計算の複雑さのため、モバイルデバイスへの展開は制限されている。
本稿では, マルチモーダルな特徴融合, マルチモーダル蒸留, 適応最適化を統合し, 軽量かつ効果的な検索モデルを提供する新しいフレームワークである, 適応型マルチモーダルなマルチモーダル知識蒸留(AMMKD)を提案する。
具体的には、画像とテキストの両モードから識別的特徴を抽出し、マージする特徴融合ネットワークから始める。
モデルパラメータの削減と性能の向上を目的として,2つのCLIP教師モデルの事前学習を行うマルチ教師ナレッジ蒸留フレームワークを設計した。
教師のテキストエンコーダを介して,テキスト特徴をクラスベクトルとして事前計算し,記憶することで,モダリティを分離し,効率を向上する。
教師と学生の出力の整合性を改善するために,確率分布マッチングにKL散乱を適用する。
最後に,多目的最適化問題として多教師蒸留を扱う適応動的重み付け方式を設計する。
勾配空間の多様性を活用することで、各教師の影響を動的に調整し、対立を減らし、より最適な学習方向に向けて生徒を指導する。
3つのベンチマークデータセットに対する大規模な実験により、AMMKDはモデル複雑性を著しく低減し、その有効性と柔軟性を検証しながら、優れたパフォーマンスを達成することが示された。
関連論文リスト
- Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z) - Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。
Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文 参考訳(メタデータ) (2023-10-30T15:38:43Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Efficient Multimodal Fusion via Interactive Prompting [62.08292938484994]
大規模事前学習は、コンピュータビジョンや自然言語処理のような一助的な分野を新しい時代にもたらした。
本稿では,一様事前学習型変圧器の融合に適した効率的かつ柔軟な多モード融合法PMFを提案する。
論文 参考訳(メタデータ) (2023-04-13T07:31:51Z) - Reinforced Multi-Teacher Selection for Knowledge Distillation [54.72886763796232]
知識蒸留はモデル圧縮の一般的な方法です。
現在の方法は、蒸留全体の教師モデルに固定重量を割り当てます。
既存のメソッドのほとんどは、すべての教師モデルに等しい重みを割り当てます。
本論文では,学習例の複雑性や生徒モデル能力の違いから,教師モデルとの違いを学習することで,生徒モデルの蒸留性能の向上が期待できることを考察する。
論文 参考訳(メタデータ) (2020-12-11T08:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。