論文の概要: Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation
- arxiv url: http://arxiv.org/abs/2402.14874v2
- Date: Fri, 23 Aug 2024 07:31:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 19:58:50.693446
- Title: Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation
- Title(参考訳): 蒸留コントラスト復号法: 蒸留コントラスト復号法と蒸留法を併用したLCMの改良
- Authors: Phuc Phan, Hieu Tran, Long Phan,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。
DCDは、DropoutやQuantizationなど、Contrastive Chain-of- Thought Promptingと高度な蒸留技術を採用している。
評価の結果,DCD は様々な推論ベンチマークにおいて LLM 性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 4.564976342039024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a straightforward approach called Distillation Contrastive Decoding (DCD) to enhance the reasoning capabilities of Large Language Models (LLMs) during inference. In contrast to previous approaches that relied on smaller amateur models or analysis of hidden state differences, DCD employs Contrastive Chain-of-thought Prompting and advanced distillation techniques, including Dropout and Quantization. This approach effectively addresses the limitations of Contrastive Decoding (CD), which typically requires both an expert and an amateur model, thus increasing computational resource demands. By integrating contrastive prompts with distillation, DCD obviates the need for an amateur model and reduces memory usage. Our evaluations demonstrate that DCD significantly enhances LLM performance across a range of reasoning benchmarks, surpassing both CD and existing methods in the GSM8K and StrategyQA datasets.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。
より小さなアマチュアモデルや隠れ状態の違いの分析に頼っていた従来のアプローチとは対照的に、DCDはContrastive Chain-of- Thought PromptingとDropoutやQuantizationといった高度な蒸留技術を採用している。
このアプローチは、専門家とアマチュアモデルの両方を必要とするコントラストデコーディング(CD)の限界に効果的に対処する。
対照的なプロンプトと蒸留を統合することで、DCDはアマチュアモデルの必要性を排除し、メモリ使用量を減らす。
GSM8KデータセットとStrategyQAデータセットのCDおよび既存手法に比較して,DCDがLLM性能を大幅に向上することを示す。
関連論文リスト
- Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。
具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。
我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル (DM) は様々な領域で異常な生成能力を示す。
DMを加速する最も一般的な方法は、生成中のデノナイジングステップの数を減少させることである。
本稿では,大規模な事前学習型DMを高速なアーキテクチャに転送する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:12:22Z) - Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。
RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。
我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文 参考訳(メタデータ) (2024-07-04T08:08:25Z) - Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。
E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。
我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文 参考訳(メタデータ) (2024-05-09T17:59:40Z) - Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。
本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。
人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文 参考訳(メタデータ) (2024-04-21T15:16:05Z) - Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Training Energy-Based Models with Diffusion Contrastive Divergences [45.01243513440672]
Diffusion Contrastive Divergence (DCD) はエネルギーベースモデル(EBM)のトレーニング目標である
提案したDCDは,CDよりも計算効率が良く,非無視勾配項に制限されないことを示す。
画像生成実験では、提案されたDCDは、Celab-Aを32$のデータセットで生成するためのエネルギーベースのモデルを訓練することができる。
論文 参考訳(メタデータ) (2023-07-04T12:00:06Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。