論文の概要: Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability
- arxiv url: http://arxiv.org/abs/2307.03135v2
- Date: Wed, 19 Jul 2023 01:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 16:45:06.044498
- Title: Distilling Large Vision-Language Model with Out-of-Distribution
Generalizability
- Title(参考訳): アウト・オブ・ディストリビューション・ジェネリザビリティを持つ大規模視覚言語モデルの蒸留
- Authors: Xuanlin Li, Yunhao Fang, Minghua Liu, Zhan Ling, Zhuowen Tu, Hao Su
- Abstract要約: 本稿では,大規模教師の視覚言語モデルから軽量学生モデルへの視覚表現の蒸留について検討する。
本稿では,いくつかの指標を提案し,その手法を検証するための広範囲な実験を行う。
その結果,オープン・ボキャブラリ・アウト・オブ・ディストリビューションの分類において,ゼロショットと少数ショットの学生のパフォーマンスが著しく向上した。
- 参考スコア(独自算出の注目度): 40.13436286236354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models have achieved outstanding performance, but their
size and computational requirements make their deployment on
resource-constrained devices and time-sensitive tasks impractical. Model
distillation, the process of creating smaller, faster models that maintain the
performance of larger models, is a promising direction towards the solution.
This paper investigates the distillation of visual representations in large
teacher vision-language models into lightweight student models using a small-
or mid-scale dataset. Notably, this study focuses on open-vocabulary
out-of-distribution (OOD) generalization, a challenging problem that has been
overlooked in previous model distillation literature. We propose two principles
from vision and language modality perspectives to enhance student's OOD
generalization: (1) by better imitating teacher's visual representation space,
and carefully promoting better coherence in vision-language alignment with the
teacher; (2) by enriching the teacher's language representations with
informative and finegrained semantic attributes to effectively distinguish
between different labels. We propose several metrics and conduct extensive
experiments to investigate their techniques. The results demonstrate
significant improvements in zero-shot and few-shot student performance on
open-vocabulary out-of-distribution classification, highlighting the
effectiveness of our proposed approaches. Code released at
https://github.com/xuanlinli17/large_vlm_distillation_ood
- Abstract(参考訳): 大きなビジョン言語モデルは優れた性能を達成しているが、そのサイズと計算要件により、リソースに制約のあるデバイスや時間に敏感なタスクへのデプロイは現実的ではない。
モデル蒸留は、より大きなモデルの性能を維持する、より小さくより高速なモデルを作成するプロセスであり、ソリューションに向けた有望な方向である。
本稿では,大規模教師の視覚モデルから軽度学生モデルへの視覚表現の蒸留について,小規模または中規模データセットを用いて検討する。
本研究は,従来モデル蒸留の文献では見過ごされてきた課題であるオープン・ボキャブラリー・アウト・オブ・ディストリビューション(ood)の一般化に焦点を当てたものである。
1) 教師の視覚表現空間を模倣し, 教師との視覚・言語連携を慎重に促進すること, (2) 教師の言語表現を情報的かつ細かな意味的属性で豊かにすることで, 異なるラベルを効果的に区別することである。
我々は,いくつかの指標を提案し,その手法を検討するために広範囲な実験を行う。
その結果,オープン・ボカブラリー・アウト・オブ・ディストリビューション分類におけるゼロショットと少数ショットの学生成績が有意に改善し,提案手法の有効性が示された。
コード: https://github.com/xuanlinli17/large_vlm_distillation_ood
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter [21.45490901191175]
PaLM2-VAdapterは、視覚言語アダプタとして徐々に整列した言語モデルを採用している。
提案手法は、最先端の大規模視覚言語モデルよりも3070%少ないパラメータでこれらの進歩を実現する。
論文 参考訳(メタデータ) (2024-02-16T18:54:47Z) - Text Representation Distillation via Information Bottleneck Principle [22.63996326177594]
IBKDと呼ばれる新しい知識蒸留法を提案する。
本研究の目的は,教師モデルと学生モデルの最終表現間の相互情報を最大化しつつ,学生モデルの表現と入力データとの相互情報を同時に低減することにある。
テキスト表現の2つの主要なダウンストリーム応用に関する実証的研究により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-11-09T16:04:17Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。