Fugu-MT 論文翻訳(概要): Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation

論文の概要: Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation

arxiv url: http://arxiv.org/abs/2402.14874v1
Date: Wed, 21 Feb 2024 17:20:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 16:47:35.479983
Title: Distillation Contrastive Decoding: Improving LLMs Reasoning with Contrastive Decoding and Distillation
Title（参考訳）: 蒸留コントラストデコード:コントラストデコードと蒸留によるllms推論の改善
Authors: Phuc Phan, Hieu Tran, Long Phan
Abstract要約: 本稿では,大規模言語モデル (LLM) の推論能力を高めるため,DCD (Distillation Contrastive Decoding) という簡単な手法を提案する。 DCDは、DropoutやQuantizationなど、Contrastive Chain-of- Thought Promptingと高度な蒸留技術を採用している。評価の結果,DCD は様々な推論ベンチマークにおいて LLM 性能を著しく向上させることが示された。
参考スコア（独自算出の注目度）: 5.130575929939347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a straightforward approach called Distillation Contrastive Decoding (DCD) to enhance the reasoning capabilities of Large Language Models (LLMs) during inference. In contrast to previous approaches that relied on smaller amateur models or analysis of hidden state differences, DCD employs Contrastive Chain-of-thought Prompting and advanced distillation techniques, including Dropout and Quantization. This approach effectively addresses the limitations of Contrastive Decoding (CD), which typically requires both an expert and an amateur model, thus increasing computational resource demands. By integrating contrastive prompts with distillation, DCD obviates the need for an amateur model and reduces memory usage. Our evaluations demonstrate that DCD significantly enhances LLM performance across a range of reasoning benchmarks, surpassing both CD and existing methods in the GSM8K and StrategyQA datasets.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)の推論能力を高めるため,DCD(Distillation Contrastive Decoding)という簡単な手法を提案する。より小さなアマチュアモデルや隠れ状態の違いの分析に頼っていた従来のアプローチとは対照的に、DCDはContrastive Chain-of- Thought PromptingとDropoutやQuantizationといった高度な蒸留技術を採用している。このアプローチは、通常、専門家とアマチュアモデルの両方を必要とするコントラスト・デコード(cd)の限界に効果的に対応し、計算資源の要求を増加させる。対照的なプロンプトと蒸留を統合することで、DCDはアマチュアモデルの必要性を排除し、メモリ使用量を減らす。 GSM8KデータセットとStrategyQAデータセットのCDおよび既存手法に比較して,DCDがLLM性能を大幅に向上することを示す。

関連論文リスト

On-Policy Context Distillation for Language Models [92.82835176360864]
本稿では, オンライン蒸留とコンテキスト蒸留を橋渡しするフレームワークである, オン・ポリティ・コンテキスト蒸留(OPCD)を提案する。実験的知識蒸留とシステム急速蒸留の2つの重要な応用におけるOPCDの有効性を実証する。
論文参考訳（メタデータ） (2026-02-12T18:58:28Z)
Adversarial Distribution Matching for Diffusion Distillation Towards Efficient Image and Video Synthesis [65.77083310980896]
本稿では, 実測値と偽測値の間に潜時予測を整列させる適応分布マッチング (ADM) を提案する。提案手法は,DMD2と比較してSDXLの1ステップ性能に優れ,GPU時間が少ない。 SD3-Medium, SD3.5-Large, CogVideoX に多段階の ADM 蒸留を適用した実験では, 画像と映像の効率的な合成に向けた新しいベンチマークが設定された。
論文参考訳（メタデータ） (2025-07-24T16:45:05Z)
ConciseHint: Boosting Efficient Reasoning via Continuous Concise Hints during Generation [74.37307916314407]
提案するフレームワークはConciseHintと呼ばれ,推論モデルが簡潔に話すことを継続的に奨励する。 DeepSeek-R1 および Qwen-3 シリーズを含む最先端の LRM 実験により,本手法が簡潔な推論を効果的に生成できることが実証された。
論文参考訳（メタデータ） (2025-06-23T16:20:44Z)
Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。 CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文参考訳（メタデータ） (2025-06-03T03:13:27Z)
TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [42.8895384120507]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文参考訳（メタデータ） (2025-03-31T15:16:31Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Distillation-Free One-Step Diffusion for Real-World Image Super-Resolution [81.81748032199813]
蒸留不要1ステップ拡散モデルを提案する。具体的には、敵対的訓練に参加するためのノイズ認識識別器(NAD)を提案する。我々は、エッジ対応disTS(EA-DISTS)による知覚損失を改善し、詳細な情報を生成するモデルの能力を向上させる。
論文参考訳（メタデータ） (2024-10-05T16:41:36Z)
DKDM: Data-Free Knowledge Distillation for Diffusion Models with Any Architecture [69.58440626023541]
拡散モデル (DM) は様々な領域で異常な生成能力を示す。 DMを加速する最も一般的な方法は、生成中のデノナイジングステップの数を減少させることである。本稿では,大規模な事前学習型DMを高速なアーキテクチャに転送する新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-05T14:12:22Z)
Relative Difficulty Distillation for Semantic Segmentation [54.76143187709987]
我々は,Relative Difficulty Distillation (RDD) というセマンティックセグメンテーションのための画素レベルのKDパラダイムを提案する。 RDDにより、教師ネットワークは、追加の最適化目標を伴わずに、学習焦点に対する効果的なガイダンスを提供することができる。我々の研究は、RDDが既存のKDメソッドと統合して、上位パフォーマンスバウンダリを改善できることを示します。
論文参考訳（メタデータ） (2024-07-04T08:08:25Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis [20.2271205957037]
Hyper-SDはODEトラジェクトリ保存と改革の利点を活かす新しいフレームワークである。本稿では, 予め定義された時間ステップセグメント内で一貫した蒸留を行うために, トラジェクティブ・セグメンテッド・コンシスタンス蒸留を導入する。人間のフィードバック学習を取り入れ、低段階のモデルの性能を高めるとともに、蒸留プロセスによって生じる性能損失を軽減する。
論文参考訳（メタデータ） (2024-04-21T15:16:05Z)
Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文参考訳（メタデータ） (2024-03-05T22:21:45Z)
Refine, Discriminate and Align: Stealing Encoders via Sample-Wise Prototypes and Multi-Relational Extraction [57.16121098944589]
RDAは、事前訓練されたエンコーダを盗むために、以前の取り組みで普及した2つの主要な欠陥に対処するために設計された先駆的なアプローチである。これは、サンプルの様々な視点に対してターゲットエンコーダの表現を統一するサンプルワイドプロトタイプによって達成される。より強力な有効性を得るために、我々はサロゲートエンコーダを訓練し、ミスマッチした埋め込み-プロトタイプペアを識別するマルチリレーショナル抽出損失を開発する。
論文参考訳（メタデータ） (2023-12-01T15:03:29Z)
Training Energy-Based Models with Diffusion Contrastive Divergences [45.01243513440672]
Diffusion Contrastive Divergence (DCD) はエネルギーベースモデル(EBM)のトレーニング目標である提案したDCDは,CDよりも計算効率が良く,非無視勾配項に制限されないことを示す。画像生成実験では、提案されたDCDは、Celab-Aを32$のデータセットで生成するためのエネルギーベースのモデルを訓練することができる。
論文参考訳（メタデータ） (2023-07-04T12:00:06Z)
Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文参考訳（メタデータ） (2023-02-16T15:21:46Z)
How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval [80.54532535622988]
教師付き検索とゼロショット検索の両方において高い精度を達成するために、一般化可能な高密度検索を訓練できることが示される。多様な拡張で訓練された高密度レトリバーであるDRAGONは、教師付きおよびゼロショット評価の両方において最先端の有効性を実現する最初のBERTベースサイズのDRである。
論文参考訳（メタデータ） (2023-02-15T03:53:26Z)
Revisiting Intermediate Layer Distillation for Compressing Language Models: An Overfitting Perspective [7.481220126953329]
中間層蒸留(ILD)は事実上の標準KD法であり,NLPフィールドの性能向上に寄与している。本稿では,既存のILD手法はトレーニングデータセットに過度に適合する傾向があるが,これらの手法は元のKDよりも多くの情報を伝達する。我々は,学生モデルがトレーニングデータセットを過度に適合させるのを防ぐ,シンプルで効果的な一貫性規則化IDDを提案する。
論文参考訳（メタデータ） (2023-02-03T04:09:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。