Fugu-MT 論文翻訳(概要): Relational Representation Distillation

論文の概要: Relational Representation Distillation

arxiv url: http://arxiv.org/abs/2407.12073v3
Date: Mon, 9 Sep 2024 06:13:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 01:41:10.455121
Title: Relational Representation Distillation
Title（参考訳）: リレーショナル表現蒸留
Authors: Nikolaos Giakoumoglou, Tania Stathaki,
Abstract要約: 本稿では,教師モデルと学生モデルの関係を探求し,強化するためにRepresentation Distillation (RRD)を導入する。自己監督学習の原則に触発されて、正確な複製と類似性に焦点を当てた、リラックスした対照的な損失を使用する。我々は,CIFAR-100とImageNet ILSVRC-2012において優れた性能を示し,KDと組み合わせた場合,教師ネットワークよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 6.24302896438145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge distillation (KD) is an effective method for transferring knowledge from a large, well-trained teacher model to a smaller, more efficient student model. Despite its success, one of the main challenges in KD is ensuring the efficient transfer of complex knowledge while maintaining the student's computational efficiency. Unlike previous works that applied contrastive objectives promoting explicit negative instances with little attention to the relationships between them, we introduce Relational Representation Distillation (RRD). Our approach leverages pairwise similarities to explore and reinforce the relationships between the teacher and student models. Inspired by self-supervised learning principles, it uses a relaxed contrastive loss that focuses on similarity rather than exact replication. This method aligns the output distributions of teacher samples in a large memory buffer, improving the robustness and performance of the student model without the need for strict negative instance differentiation. Our approach demonstrates superior performance on CIFAR-100 and ImageNet ILSVRC-2012, outperforming traditional KD and sometimes even outperforms the teacher network when combined with KD. It also transfers successfully to other datasets like Tiny ImageNet and STL-10. Code is available at https://github.com/giakoumoglou/distillers.
Abstract（参考訳）: 知識蒸留(KD)は、大きく訓練された教師モデルからより小さく、より効率的な学生モデルに知識を移す効果的な方法である。その成功にもかかわらず、KDの主な課題の1つは、学生の計算効率を維持しながら、複雑な知識の効率的な伝達を保証することである。明示的負のインスタンスを促進することを目的とした従来の研究とは異なり、関係性表現蒸留(RRD)を導入している。本手法は,教師モデルと学生モデルの関係を探索し,強化するために,ペアワイズな類似性を利用する。自己監督学習の原則に触発されて、正確な複製よりも類似性に焦点を当てた、リラックスした対照的な損失を使用する。本手法は,教師サンプルの出力分布を大容量メモリバッファに整列させ,厳密な負のインスタンス差分を伴わずに生徒モデルの堅牢性と性能を向上させる。 CIFAR-100 と ImageNet ILSVRC-2012 では,従来の KD よりも優れた性能を示し,KD と組み合わせることで教師ネットワークよりも優れた性能を示す。 Tiny ImageNetやSTL-10といった他のデータセットへの転送も成功している。コードはhttps://github.com/giakoumoglou/distillers.comで入手できる。

関連論文リスト

Group Relative Knowledge Distillation: Learning from Teacher's Relational Inductive Bias [5.434571018755813]
グループ相対的知識蒸留(GRKD)は、クラス間の相対的なランク付けを学習することで教師の知識を蒸留する新しいフレームワークである。分類ベンチマークの実験では、GRKDは既存の手法よりも優れた一般化を実現している。
論文参考訳（メタデータ） (2025-04-29T07:23:22Z)
Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。 SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文参考訳（メタデータ） (2024-10-15T06:51:25Z)
Efficient and Robust Knowledge Distillation from A Stronger Teacher Based on Correlation Matching [0.09999629695552192]
相関マッチング知識蒸留 (CMKD) 法は, ピアソンとスピアマンの相関係数に基づくKD損失を組み合わせ, より効率的で堅牢な蒸留を実現している。 CMKDはシンプルだが実用的であり、CIRAR-100とImageNetの最先端性能を継続的に達成できることを広範な実験で実証している。
論文参考訳（メタデータ） (2024-10-09T05:42:47Z)
Simple Unsupervised Knowledge Distillation With Space Similarity [15.341380611979524]
自己教師付き学習(SSL)は、より小さなアーキテクチャに容易に拡張できない。正規化により失われた情報を捉えるための単純な目的を提案する。提案する損失成分である「textbfspace similarity」は,生徒の特徴空間の各次元を,教師の対応する次元に類似させる動機付けを行う。
論文参考訳（メタデータ） (2024-09-20T22:54:39Z)
Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。 OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文参考訳（メタデータ） (2024-09-19T07:05:26Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
Robustness-Reinforced Knowledge Distillation with Correlation Distance and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文参考訳（メタデータ） (2023-11-23T11:34:48Z)
Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。 CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文参考訳（メタデータ） (2023-11-03T21:55:33Z)
Contrastive Knowledge Amalgamation for Unsupervised Image Classification [2.6392087010521728]
Contrastive Knowledge Amalgamation (CKA) は、複数の教師モデルから協調目的を扱うためのコンパクトな学生モデルを学ぶことを目的としている。クラス内モデルとクラス間モデルとの対比損失は、異なるクラスの表現間の距離を拡大するように設計されている。このアライメント損失は、共通表現空間における教師/学生モデルのサンプルレベルの分布差を最小限に抑えるために導入された。
論文参考訳（メタデータ） (2023-07-27T11:21:14Z)
Improved knowledge distillation by utilizing backward pass knowledge in neural networks [17.437510399431606]
知識蒸留(KD)は、モデル圧縮において重要な技術の一つである。本研究では,教師の後方パスから知識を抽出し,新たな補助訓練サンプルを作成する。自然言語処理(NLP)と言語理解(Language understanding)の応用において,この手法がいかにうまく利用できるかを示す。
論文参考訳（メタデータ） (2023-01-27T22:07:38Z)
EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95～97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文参考訳（メタデータ） (2023-01-27T22:04:37Z)
Structural Knowledge Distillation for Object Detection [2.690687471762886]
構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。
論文参考訳（メタデータ） (2022-11-23T17:06:52Z)
Knowledge Distillation from A Stronger Teacher [44.11781464210916]
本稿では,より強い教師を駆使したDIST法を提案する。経験的に、学生と教師の予測の相違は、かなり厳しいものになりがちである。提案手法は単純かつ実用的であり,様々なアーキテクチャに適応できることを示す。
論文参考訳（メタデータ） (2022-05-21T08:30:58Z)
Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。知識蒸留は教師から知識を抽出し、対象モデルと統合する。教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文参考訳（メタデータ） (2022-05-04T06:49:47Z)
DisCo: Effective Knowledge Distillation For Contrastive Learning of Sentence Embeddings [36.37939188680754]
ディスティルコントラスト(DisCo)と呼ばれる知識蒸留フレームワークを提案する。 DisCoは、大きな文埋め込みモデルの能力を、大きな未ラベルデータ上で小さな学生モデルに転送する。また,教師モデルトレーニング,KD,学生モデルファインタニングのコントラスト的知識蒸留(CKD)を提案する。
論文参考訳（メタデータ） (2021-12-10T16:11:23Z)
How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文参考訳（メタデータ） (2021-10-22T21:30:53Z)
KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation [59.061835562314066]
KDExplainerと呼ばれる新しいタスク指向の注意モデルを導入し、バニラKDの基礎となる作業メカニズムを明らかにします。また、仮想注意モジュール(VAM)と呼ばれるポータブルツールを導入し、さまざまなディープニューラルネットワーク(DNN)とシームレスに統合し、KDの下でのパフォーマンスを向上させることができます。
論文参考訳（メタデータ） (2021-05-10T08:15:26Z)
Complementary Relation Contrastive Distillation [13.944372633594085]
CRCD(Complementary Relation Contrastive Distillation)という新しい知識蒸留法を提案する。我々は,アンカー-教師関係の監督の下で,アンカー-教師関係を推定し,アンカー-教師関係を蒸留する。異なるベンチマーク実験により,提案したCRCDの有効性が示された。
論文参考訳（メタデータ） (2021-03-29T02:43:03Z)
Wasserstein Contrastive Representation Distillation [114.24609306495456]
We propose Wasserstein Contrastive Representation Distillation (WCoRD) which leverages both primal and dual form of Wasserstein distance for knowledge distillation。二重形式はグローバルな知識伝達に使用され、教師と学生のネットワーク間の相互情報の低い境界を最大化する対照的な学習目標をもたらします。実験では、提案されたWCoRD法が特権情報蒸留、モデル圧縮およびクロスモーダル転送における最先端のアプローチを上回ることを実証した。
論文参考訳（メタデータ） (2020-12-15T23:43:28Z)
Multi-head Knowledge Distillation for Model Compression [65.58705111863814]
そこで本研究では,中間層における特徴マッチングのための補助分類器を用いた簡易実装法を提案する。提案手法は,本論文で提示された従来手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-05T00:49:14Z)
Knowledge Distillation Thrives on Data Augmentation [65.58705111863814]
知識蒸留(KD)は、教師モデルを用いて学生モデルをガイドする一般的なディープニューラルネットワークトレーニングフレームワークである。多くの研究がその成功の根拠を探っているが、データ強化(DA)との相互作用は未だよく認識されていない。本稿では,KD損失は,クロスエントロピー損失を伴わないが,拡張トレーニングイテレーションの恩恵を受けることができることを示す。 KD損失は、DAがもたらす異なる入力ビューから余分な情報をタップすることができる。
論文参考訳（メタデータ） (2020-12-05T00:32:04Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)
Knowledge Distillation Beyond Model Compression [13.041607703862724]
知識蒸留(KD)は、より大規模な事前訓練されたモデルや(教師)モデルのアンサンブルの監督の下で、コンパクトモデル(学生)を訓練する効果的なモデル圧縮技術として一般的に考えられている。本研究では,9つの異なるKD手法について広範な研究を行い,知識の獲得と伝達に関する幅広いアプローチについて述べる。
論文参考訳（メタデータ） (2020-07-03T19:54:04Z)
Learning from a Lightweight Teacher for Efficient Knowledge Distillation [14.865673786025525]
本稿では,軽量な知識蒸留のためのLW-KDを提案する。まず、合成された単純なデータセット上に軽量な教師ネットワークをトレーニングし、ターゲットデータセットのそれと同等の調整可能なクラス番号を付ける。そして、教師はソフトターゲットを生成し、強化されたKD損失は、教師の出力と区別不能にするためのKD損失と敵対的損失の組合せである、学生の学習を誘導する。
論文参考訳（メタデータ） (2020-05-19T01:54:15Z)
Heterogeneous Knowledge Distillation using Information Flow Modeling [82.83891707250926]
教師モデルの様々な層を流れる情報の流れをモデル化して機能する新しいKD手法を提案する。提案手法は, トレーニング過程の異なる段階において, 適切な監督手法を用いて, 上記の制限を克服することができる。
論文参考訳（メタデータ） (2020-05-02T06:56:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。