論文の概要: Closing the Curious Case of Neural Text Degeneration
- arxiv url: http://arxiv.org/abs/2310.01693v1
- Date: Mon, 2 Oct 2023 23:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 18:15:31.172133
- Title: Closing the Curious Case of Neural Text Degeneration
- Title(参考訳): 神経性テキスト変性症例のクローン化
- Authors: Matthew Finlayson, John Hewitt, Alexander Koller, Swabha Swayamdipta,
Ashish Sabharwal
- Abstract要約: トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 91.22954750742183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their ubiquity in language generation, it remains unknown why
truncation sampling heuristics like nucleus sampling are so effective. We
provide a theoretical explanation for the effectiveness of the truncation
sampling by proving that truncation methods that discard tokens below some
probability threshold (the most common type of truncation) can guarantee that
all sampled tokens have nonzero true probability. However, thresholds are a
coarse heuristic, and necessarily discard some tokens with nonzero true
probability as well. In pursuit of a more precise sampling strategy, we show
that we can leverage a known source of model errors, the softmax bottleneck, to
prove that certain tokens have nonzero true probability, without relying on a
threshold. Based on our findings, we develop an experimental truncation
strategy and the present pilot studies demonstrating the promise of this type
of algorithm. Our evaluations show that our method outperforms its
threshold-based counterparts under automatic and human evaluation metrics for
low-entropy (i.e., close to greedy) open-ended text generation. Our theoretical
findings and pilot experiments provide both insight into why truncation
sampling works, and make progress toward more expressive sampling algorithms
that better surface the generative capabilities of large language models.
- Abstract(参考訳): 言語生成のユビキタスさにもかかわらず、なぜ核サンプリングのような切断サンプリングヒューリスティックがこれほど効果的なのかは不明である。
本稿では,ある確率しきい値以下にトークンを破棄するトランケーション法(最も一般的な種類のトランケーション)が,すべてのサンプルトークンが真ではないことを保証できることを証明し,トランケーションサンプリングの有効性を理論的に説明する。
しかし、閾値は粗いヒューリスティックであり、必然的に非ゼロの真確率を持つトークンを破棄する。
より正確なサンプリング戦略を追求するため、我々は既知のモデルエラーの源であるソフトマックスボトルネックを利用して、特定のトークンが閾値に頼らずに非ゼロの真の確率を持つことを証明できることを示した。
本研究は,本手法の有望性を示す実験的トランケーション戦略とパイロット実験である。
提案手法は,低エントロピー(greedyに近い)オープンテキスト生成のための自動評価指標と人的評価指標で,しきい値に基づく評価よりも優れていることを示す。
我々の理論的な発見とパイロット実験は、なぜトランケーションサンプリングが機能するのかという知見と、より大きな言語モデルの生成能力をよりよく表すより表現力のあるサンプリングアルゴリズムへの進歩の両方を提供する。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Improving Diversity of Neural Text Generation via Inverse Probability
Weighting [43.36560720793425]
逆確率重み付けにインスパイアされたサンプリング手法を提案する。
繰り返しループに繋がる確率の高い,退屈な,あるいは反復的な候補も含んでいる可能性がある。
結果から,本アルゴリズムは,人文に近づきながら,生成したサンプルの多様性を効果的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-03-13T08:17:40Z) - Certifying Neural Network Robustness to Random Input Noise from Samples [14.191310794366075]
入力の不確実性の存在下でのニューラルネットワークの堅牢性を証明する方法は、安全クリティカルな設定において不可欠である。
本稿では,入力雑音が任意の確率分布に従う場合に,誤分類の確率を上限とする新しいロバスト性証明法を提案する。
論文 参考訳(メタデータ) (2020-10-15T05:27:21Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。