論文の概要: Modality-specific Distillation
- arxiv url: http://arxiv.org/abs/2101.01881v1
- Date: Wed, 6 Jan 2021 05:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:14:24.181095
- Title: Modality-specific Distillation
- Title(参考訳): モダリティ特異的蒸留
- Authors: Woojeong Jin, Maziar Sanjabi, Shaoliang Nie, Liang Tan, Xiang Ren,
Hamed Firooz
- Abstract要約: マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。
私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。
各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
- 参考スコア(独自算出の注目度): 30.190082262375395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large neural networks are impractical to deploy on mobile devices due to
their heavy computational cost and slow inference. Knowledge distillation (KD)
is a technique to reduce the model size while retaining performance by
transferring knowledge from a large "teacher" model to a smaller "student"
model. However, KD on multimodal datasets such as vision-language datasets is
relatively unexplored and digesting such multimodal information is challenging
since different modalities present different types of information. In this
paper, we propose modality-specific distillation (MSD) to effectively transfer
knowledge from a teacher on multimodal datasets. Existing KD approaches can be
applied to multimodal setup, but a student doesn't have access to
modality-specific predictions. Our idea aims at mimicking a teacher's
modality-specific predictions by introducing an auxiliary loss term for each
modality. Because each modality has different importance for predictions, we
also propose weighting approaches for the auxiliary losses; a meta-learning
approach to learn the optimal weights on these loss terms. In our experiments,
we demonstrate the effectiveness of our MSD and the weighting scheme and show
that it achieves better performance than KD.
- Abstract(参考訳): 大きなニューラルネットワークは、計算コストと推論の遅いため、モバイルデバイスにデプロイすることができない。
知識蒸留(KD)は、大きな「教師」モデルからより小さな「学生」モデルに知識を移すことにより、性能を維持しながら、モデルサイズを縮小する技術である。
しかし、視覚言語データセットのようなマルチモーダルデータセット上のKDは、比較的未探索であり、異なるモーダルが異なるタイプの情報を示すため、そのようなマルチモーダル情報の消化は困難である。
本稿では,マルチモーダルデータセット上で教師からの知識を効果的に伝達するための,モーダル比蒸留(MSD)を提案する。
既存のKDアプローチはマルチモーダル設定に適用できるが、学生はモダリティ固有の予測にアクセスできない。
本研究の目的は,教師のモダリティに特有の予測を模倣し,各モダリティに補助的損失項を導入することである。
それぞれのモダリティは予測に異なる重要性を持っているため、補助的損失に対する重み付けアプローチ(メタラーニングアプローチ)を提案し、これらの損失項の最適重み付けを学習する。
実験では,msdの有効性と重み付け方式を実証し,kdよりも優れた性能が得られることを示す。
関連論文リスト
- Distilling Privileged Multimodal Information for Expression Recognition
using Optimal Transport [48.93868076986549]
本稿では、エントロピー規則化されたOTが構造的な暗黒知識を蒸留する最適輸送(OT)に基づく新しい構造的KD機構を提案する。
痛み推定と覚醒価予測の2つの異なる問題について実験を行った。
論文 参考訳(メタデータ) (2024-01-27T19:44:15Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Distiller: A Systematic Study of Model Distillation Methods in Natural
Language Processing [21.215122347801696]
我々は、KDパイプラインの異なるコンポーネントが結果のパフォーマンスにどのように影響するかを特定することを目指している。
我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを組み合わせた,メタKDフレームワークであるDistillerを提案する。
異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、単純なAutoDistillerアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-23T02:12:28Z) - Boosting Light-Weight Depth Estimation Via Knowledge Distillation [21.93879961636064]
本稿では,最小限の計算資源を用いて深度マップを正確に推定できる軽量ネットワークを提案する。
モデル複雑性を最大に低減するコンパクトなモデルアーキテクチャを設計することで、これを実現する。
本手法は, パラメータの1%しか使用せず, 最先端手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2021-05-13T08:42:42Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。
提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文 参考訳(メタデータ) (2020-05-02T06:56:56Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。