論文の概要: Explaining and Improving Contrastive Decoding by Extrapolating the Probabilities of a Huge and Hypothetical LM
- arxiv url: http://arxiv.org/abs/2411.01610v1
- Date: Sun, 03 Nov 2024 15:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:00.120002
- Title: Explaining and Improving Contrastive Decoding by Extrapolating the Probabilities of a Huge and Hypothetical LM
- Title(参考訳): 大規模および仮説的LMの確率を外挿したコントラストデコーディングの解説と改善
- Authors: Haw-Shiuan Chang, Nanyun Peng, Mohit Bansal, Anil Ramakrishna, Tagyoung Chung,
- Abstract要約: コントラストデコーディング(CD)は,小型のアマチュアLMを用いて,大規模専門家言語モデル(LM)の次点分布を改善する。
我々は$mathbfA$symptotic $mathbfP$robability $mathbfD$ecoding (APD)と呼ばれる新しい教師なし復号法を提案する。
APDは異なる大きさのLMから確率曲線を明示的に外挿し、CDよりも多くの推論コストを発生させることなく無限大のLMから確率曲線を推定する。
- 参考スコア(独自算出の注目度): 93.8400683020273
- License:
- Abstract: Contrastive decoding (CD) (Li et al., 2023) improves the next-token distribution of a large expert language model (LM) using a small amateur LM. Although CD is applied to various LMs and domains to enhance open-ended text generation, it is still unclear why CD often works well, when it could fail, and how we can make it better. To deepen our understanding of CD, we first theoretically prove that CD could be viewed as linearly extrapolating the next-token logits from a huge and hypothetical LM. We also highlight that the linear extrapolation could make CD unable to output the most obvious answers that have already been assigned high probabilities by the amateur LM. To overcome CD's limitation, we propose a new unsupervised decoding method called $\mathbf{A}$symptotic $\mathbf{P}$robability $\mathbf{D}$ecoding (APD). APD explicitly extrapolates the probability curves from the LMs of different sizes to infer the asymptotic probabilities from an infinitely large LM without inducing more inference costs than CD. In FactualityPrompts, an open-ended text generation benchmark, sampling using APD significantly boosts factuality in comparison to the CD sampling and its variants, and achieves state-of-the-art results for Pythia 6.9B and OPT 6.7B. Furthermore, in five commonsense QA datasets, APD is often significantly better than CD and achieves a similar effect of using a larger LLM. For example, the perplexity of APD on top of Pythia 6.9B is even lower than the perplexity of Pythia 12B in CommonsenseQA and LAMBADA.
- Abstract(参考訳): Contrastive Decoding (CD) (Li et al , 2023) は、小規模なアマチュアLMを用いて、大規模な専門家言語モデル(LM)の次のトーケン分布を改善する。
CDは、様々なLMやドメインに適用され、オープンエンドテキスト生成を向上するが、なぜCDがよく機能するのか、いつ失敗するか、どのように改善できるかは、まだ不明である。
CDの理解を深めるために、我々はまず、CDは巨大で仮説的なLMから次の丸太を線形に外挿することができることを理論的に証明した。
また, 線形補間により, CDはアマチュアLMによって既に高い確率が割り当てられている最も明白な答えを出力できない可能性があることも強調した。
CDの制限を克服するために、$\mathbf{A}$symptotic $\mathbf{P}$robability $\mathbf{D}$ecoding (APD)と呼ばれる新しい教師なし復号法を提案する。
APDは異なる大きさのLMから確率曲線を明示的に外挿し、CDよりも多くの推論コストを発生させることなく無限大のLMから漸近確率を推定する。
オープンなテキスト生成ベンチマークであるFactalityPromptsでは、APDを使用したサンプリングは、CDサンプリングとその変種と比較して事実性を著しく向上させ、Pythia 6.9B と OPT 6.7B の最先端結果を達成する。
さらに、5つのコモンセンスQAデータセットでは、APDはCDよりも大幅に優れており、より大きなLCMを使用することで同様の効果が得られる。
例えば、Pythia 6.9B上のAPDのパープレキシティは、CommonsenseQAおよびLAMBADAにおけるPythia 12Bのパープレキシティよりも低い。
関連論文リスト
- $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Contrastive Decoding: Open-ended Text Generation as Optimization [153.35961722855686]
信頼性の高い復号法であるコントラスト復号法(CD)を提案する。
これは、より大きなLMの故障がより小さなLMでさらに多いという事実に着想を得たものである。
CDは追加のトレーニングを一切必要とせず、より大きなLMからの復号化よりも高品質なテキストを生成する。
論文 参考訳(メタデータ) (2022-10-27T00:58:21Z) - On Best-Arm Identification with a Fixed Budget in Non-Parametric
Multi-Armed Bandits [0.0]
我々は、腕上の分布の一般、おそらくはパラメトリックでないモデルDを考える。
情報理論量に基づいて最適なアームを誤識別する平均対数確率の上限を提案する。
論文 参考訳(メタデータ) (2022-09-30T10:55:40Z) - Density-aware Chamfer Distance as a Comprehensive Metric for Point Cloud
Completion [90.26652899910019]
チャンファー距離 (CD) とアースモーバー距離 (EMD) は、2つの点集合間の類似度を測定するために広く採用されている2つの指標である。
本稿では,DCD(Dedentity-Aware Chamfer Distance)と呼ばれる新しい類似度尺度を提案する。
DCDは、全体構造と局所的詳細の両方に注意を払っており、CDと矛盾する場合でも、より信頼性の高い評価を提供する。
論文 参考訳(メタデータ) (2021-11-24T18:56:27Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - CD-split and HPD-split: efficient conformal regions in high dimensions [3.1690891866882236]
我々は,CDスプリットの理論的性質を探求することによって,CDスプリットに関する新たな知見を提供する。
我々は,CDスプリットが最も高い予測密度集合に収束し,局所的変動と条件付き妥当性を満たすことを示す。
我々は,CDスプリットの手法であるHPDスプリットを導入し,CDスプリットと同じ理論的保証を共有することを示す。
論文 参考訳(メタデータ) (2020-07-24T21:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。