Fugu-MT 論文翻訳(概要): Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing

論文の概要: Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing

arxiv url: http://arxiv.org/abs/2109.11105v1
Date: Thu, 23 Sep 2021 02:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-25 00:27:44.373044
Title: Distiller: A Systematic Study of Model Distillation Methods in Natural Language Processing
Title（参考訳）: Distiller:自然言語処理におけるモデル蒸留法の体系的研究
Authors: Haoyu He, Xingjian Shi, Jonas Mueller, Zha Sheng, Mu Li, George Karypis
Abstract要約: 我々は、KDパイプラインの異なるコンポーネントが結果のパフォーマンスにどのように影響するかを特定することを目指している。我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを組み合わせた,メタKDフレームワークであるDistillerを提案する。異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、単純なAutoDistillerアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 21.215122347801696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We aim to identify how different components in the KD pipeline affect the resulting performance and how much the optimal KD pipeline varies across different datasets/tasks, such as the data augmentation policy, the loss function, and the intermediate representation for transferring the knowledge between teacher and student. To tease apart their effects, we propose Distiller, a meta KD framework that systematically combines a broad range of techniques across different stages of the KD pipeline, which enables us to quantify each component's contribution. Within Distiller, we unify commonly used objectives for distillation of intermediate representations under a universal mutual information (MI) objective and propose a class of MI-$\alpha$ objective functions with better bias/variance trade-off for estimating the MI between the teacher and the student. On a diverse set of NLP datasets, the best Distiller configurations are identified via large-scale hyperparameter optimization. Our experiments reveal the following: 1) the approach used to distill the intermediate representations is the most important factor in KD performance, 2) among different objectives for intermediate distillation, MI-$\alpha$ performs the best, and 3) data augmentation provides a large boost for small training datasets or small student networks. Moreover, we find that different datasets/tasks prefer different KD algorithms, and thus propose a simple AutoDistiller algorithm that can recommend a good KD pipeline for a new dataset.
Abstract（参考訳）: 我々は,KDパイプラインの異なるコンポーネントが結果のパフォーマンスに与える影響と,データ拡張ポリシや損失関数,教師と学生間の知識伝達の中間表現など,データセット/タスク間で最適なKDパイプラインがどの程度変化するかを明らかにすることを目的とする。これらの効果を区別するために,我々は,KDパイプラインのさまざまな段階にわたる幅広いテクニックを体系的に組み合わせたメタKDフレームワークであるDistillerを提案し,各コンポーネントの貢献度を定量化する。 Distiller内では、共通相互情報(MI)目的下で中間表現を蒸留する目的を統一し、教師と学生のMIを推定するためのバイアス/分散トレードオフがより優れたMI-$alpha$目的関数のクラスを提案する。 NLPデータセットの多種多様なセットでは、Distiller設定が大規模ハイパーパラメータ最適化によって識別される。実験の結果,以下のことが判明した。 1) 中間表現を蒸留する手法はKD性能において最も重要な要素である。 2)中間蒸留の異なる目的のうち、MI-$\alpha$が最善を尽くし、 3)データ拡張により、小さなトレーニングデータセットや小さな学生ネットワークが大幅に向上する。さらに、異なるデータセット/タスクは異なるKDアルゴリズムを好んでおり、新しいデータセットに対して優れたKDパイプラインを推奨できる単純なAutoDistillerアルゴリズムを提案する。

関連論文リスト

Data Uniformity Improves Training Efficiency and More, with a Convergence Framework Beyond the NTK Regime [9.749891245059596]
より均一に分散したデータを選択することで、トレーニング効率が向上し、性能が向上することを示す。具体的には、より均一な(バイアスのない)分布が、データポイント間の最小ペア距離を大きくすることを示す。理論的には、ニューラルネットワークの近似誤差は、h_min$が増加するにつれて減少する。
論文参考訳（メタデータ） (2025-06-30T17:58:30Z)
Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文参考訳（メタデータ） (2025-06-16T07:55:14Z)
Efficient Data Selection at Scale via Influence Distillation [53.03573620682107]
本稿では,データ選択のための数学的に修飾されたフレームワークであるインフルエンス蒸留を紹介する。対象分布に対する各試料の影響を蒸留することにより,トレーニングデータの選択に使用されるモデル固有の重みを割り当てる。実験の結果、蒸留の影響は最先端のパフォーマンスに匹敵し、最大3.5タイムの高速選択を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-25T09:08:00Z)
The Quest for Efficient Reasoning: A Data-Centric Benchmark to CoT Distillation [37.38634940034755]
本稿では,チェーン・オブ・ソート(CoT)蒸留におけるデータ操作を調査する最初のデータ中心型ベンチマークであるDC-CoTを紹介する。我々は、これらのデータ操作が複数の推論データセットの学生モデル性能に与える影響を厳格に評価する。
論文参考訳（メタデータ） (2025-05-24T15:54:19Z)
Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。 ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文参考訳（メタデータ） (2025-04-14T02:39:26Z)
ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。 ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文参考訳（メタデータ） (2024-12-01T01:01:09Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
Direct Preference Knowledge Distillation for Large Language Models [73.50849692633953]
大規模言語モデル(LLM)のためのDPKD(Direct Preference Knowledge Distillation)を提案する。我々はLLMのKDを、暗黙の報酬と逆のKL分岐からなる最適化と目的の2段階に再構成する。実験と理論的解析により,KDにおける暗黙の報酬と出力選好の価値と効果を証明した。
論文参考訳（メタデータ） (2024-06-28T09:23:40Z)
Contextual Distillation Model for Diversified Recommendation [19.136439564988834]
文脈蒸留モデル(CDM)は、多様化に対処する効率的なレコメンデーションモデルである。本稿では,肯定的コンテキストと否定的コンテキストの両方をモデル化するための注意機構を用いたコントラスト型コンテキストエンコーダを提案する。推論中は、推薦と学生モデルスコアを線形に組み合わせてランキングを行う。
論文参考訳（メタデータ） (2024-06-13T11:55:40Z)
CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文参考訳（メタデータ） (2024-06-07T19:10:35Z)
AICSD: Adaptive Inter-Class Similarity Distillation for Semantic Segmentation [12.92102548320001]
本稿では,知識蒸留を目的としたICSD (Inter-Class similarity Distillation) を提案する。提案手法は,教師ネットワークから生徒ネットワークへの高次関係を,ネットワーク出力から各クラス毎のクラス内分布を独立に計算することによって伝達する。セマンティックセグメンテーションのためのよく知られた2つのデータセットであるCityscapesとPascal VOC 2012の実験により、提案手法の有効性が検証された。
論文参考訳（メタデータ） (2023-08-08T13:17:20Z)
Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。 CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文参考訳（メタデータ） (2023-06-01T12:53:10Z)
Improving Knowledge Distillation via Regularizing Feature Norm and Direction [16.98806338782858]
知識蒸留(KD)は、大きな訓練されたモデル(例えば教師)を利用して、同じタスクのために同じデータセット上で小さな学生モデルを訓練する。教師の特徴を知識として扱うこと、知識蒸留訓練の学生は、その特徴を教師の特徴と整合させることによって、例えば、ロジット間のKL偏差を最小化し、中間特徴間のL2距離を最小化する。教師に対する生徒の特徴の整合性の向上は教師の知識をよりよく蒸留すると考えるのは自然なことだが、単にこの整合性を強制することは生徒のパフォーマンスに直接寄与しない。
論文参考訳（メタデータ） (2023-05-26T15:05:19Z)
Prediction-Guided Distillation for Dense Object Detection [7.5320132424481505]
そこで本研究では,教師の高検出性能を担っているのは,接地路境界ボックス内のごく少数の機能のみであることを示す。教師のこれらの重要な予測領域に蒸留に焦点を当てた予測誘導蒸留(PGD)を提案する。提案手法は, 先進的な1段階検出アーキテクチャにおいて, 最先端KDベースラインよりも優れている。
論文参考訳（メタデータ） (2022-03-10T16:46:05Z)
EvDistill: Asynchronous Events to End-task Learning via Bidirectional Reconstruction-guided Cross-modal Knowledge Distillation [61.33010904301476]
イベントカメラは画素ごとの強度変化を感知し、ダイナミックレンジが高く、動きのぼやけが少ない非同期イベントストリームを生成する。本稿では,bfEvDistillと呼ばれる新しい手法を提案し,未ラベルのイベントデータから学生ネットワークを学習する。 EvDistillは、イベントとAPSフレームのみのKDよりもはるかに優れた結果が得られることを示す。
論文参考訳（メタデータ） (2021-11-24T08:48:16Z)
Modality-specific Distillation [30.190082262375395]
マルチモーダルデータセット上の教師から知識を効果的に伝達するモダリティ特異的蒸留(MSD)を提案する。私たちのアイデアは、各モダリティの補助損失項を導入して、教師のモダリティ特異的予測を模倣することを目指しています。各モダリティは予測に異なる重要性を持つため、補助的損失に対する重み付けアプローチも提案する。
論文参考訳（メタデータ） (2021-01-06T05:45:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。