論文の概要: Distillation Contrastive Decoding: Improving LLMs Reasoning with
Contrastive Decoding and Distillation
- arxiv url: http://arxiv.org/abs/2402.14874v1
- Date: Wed, 21 Feb 2024 17:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 16:47:35.479983
- Title: Distillation Contrastive Decoding: Improving LLMs Reasoning with
Contrastive Decoding and Distillation
- Title(参考訳): 蒸留コントラストデコード:コントラストデコードと蒸留によるllms推論の改善
- Authors: Phuc Phan, Hieu Tran, Long Phan
- Abstract要約: 本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。
DCDは、DropoutやQuantizationなど、Contrastive Chain-of- Thought Promptingと高度な蒸留技術を採用している。
評価の結果,DCD は様々な推論ベンチマークにおいて LLM 性能を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 5.130575929939347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a straightforward approach called Distillation Contrastive
Decoding (DCD) to enhance the reasoning capabilities of Large Language Models
(LLMs) during inference. In contrast to previous approaches that relied on
smaller amateur models or analysis of hidden state differences, DCD employs
Contrastive Chain-of-thought Prompting and advanced distillation techniques,
including Dropout and Quantization. This approach effectively addresses the
limitations of Contrastive Decoding (CD), which typically requires both an
expert and an amateur model, thus increasing computational resource demands. By
integrating contrastive prompts with distillation, DCD obviates the need for an
amateur model and reduces memory usage. Our evaluations demonstrate that DCD
significantly enhances LLM performance across a range of reasoning benchmarks,
surpassing both CD and existing methods in the GSM8K and StrategyQA datasets.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の推論能力を高めるため,DCD(Distillation Contrastive Decoding)という簡単な手法を提案する。
より小さなアマチュアモデルや隠れ状態の違いの分析に頼っていた従来のアプローチとは対照的に、DCDはContrastive Chain-of- Thought PromptingとDropoutやQuantizationといった高度な蒸留技術を採用している。
このアプローチは、通常、専門家とアマチュアモデルの両方を必要とするコントラスト・デコード(cd)の限界に効果的に対応し、計算資源の要求を増加させる。
対照的なプロンプトと蒸留を統合することで、DCDはアマチュアモデルの必要性を排除し、メモリ使用量を減らす。
GSM8KデータセットとStrategyQAデータセットのCDおよび既存手法に比較して,DCDがLLM性能を大幅に向上することを示す。
関連論文リスト
- Bit-mask Robust Contrastive Knowledge Distillation for Unsupervised
Semantic Hashing [71.47723696190184]
セマンティックハッシュのための革新的なBit-mask Robust Contrastive Knowledge Distillation (BRCD)法を提案する。
BRCDはセマンティックハッシュモデルの蒸留のために特別に考案されている。
論文 参考訳(メタデータ) (2024-03-10T03:33:59Z) - Learning to Maximize Mutual Information for Chain-of-Thought
Distillation [14.47452997404004]
CoT蒸留を利用した新しい手法であるDistilling Step-by-Step (DSS) は、より大型のモデルに対して優れた推論能力を持つ小型モデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
本稿では,この最適化問題を学習に基づく手法を用いて解くための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Refine, Discriminate and Align: Stealing Encoders via Sample-Wise
Prototypes and Multi-Relational Extraction [60.0276011074825]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。
これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。
より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文 参考訳(メタデータ) (2023-12-01T15:03:29Z) - Training Energy-Based Models with Diffusion Contrastive Divergences [45.01243513440672]
Diffusion Contrastive Divergence (DCD) はエネルギーベースモデル(EBM)のトレーニング目標である
提案したDCDは,CDよりも計算効率が良く,非無視勾配項に制限されないことを示す。
画像生成実験では、提案されたDCDは、Celab-Aを32$のデータセットで生成するためのエネルギーベースのモデルを訓練することができる。
論文 参考訳(メタデータ) (2023-07-04T12:00:06Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Towards Efficient Deep Hashing Retrieval: Condensing Your Data via
Feature-Embedding Matching [7.908244841289913]
最先端の深層ハッシュ検索モデルのトレーニングに要する費用は増加している。
最先端のデータセット蒸留法は、すべての深層ハッシュ検索法に拡張できない。
合成集合と実集合との特徴埋め込みをマッチングすることにより,これらの制約に対処する効率的な凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T13:23:55Z) - Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。
我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文 参考訳(メタデータ) (2023-02-16T15:21:46Z) - How to Train Your DRAGON: Diverse Augmentation Towards Generalizable
Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。
多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文 参考訳(メタデータ) (2023-02-15T03:53:26Z) - Revisiting Intermediate Layer Distillation for Compressing Language
Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。
本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。
我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文 参考訳(メタデータ) (2023-02-03T04:09:22Z) - Unpaired Adversarial Learning for Single Image Deraining with Rain-Space
Contrastive Constraints [61.40893559933964]
我々は,CDR-GAN という名称の GAN フレームワークにおいて,比較学習手法により,経験者の相互特性を探索する有効な非経験的 SID 手法を開発した。
提案手法は, 合成および実世界の両方のデータセットにおいて, 既存の非対効果のデラミニング手法に対して良好に動作し, 完全教師付きモデルや半教師付きモデルよりも優れている。
論文 参考訳(メタデータ) (2021-09-07T10:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。