論文の概要: Locally Typical Sampling
- arxiv url: http://arxiv.org/abs/2202.00666v6
- Date: Thu, 05 Jun 2025 07:11:29 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-06-08 15:20:05.953531
- Title: Locally Typical Sampling
- Title(参考訳): 局所サンプリング
- Authors: Clara Meister, Tiago Pimentel, Gian Wiher, Ryan Cotterell,
- Abstract要約: 我々は、今日の確率的言語ジェネレータが、一貫性と流動性のあるテキストを生成する際に不足していることを示します。
本稿では,確率モデルから生成する際の,この基準を強制するための簡易かつ効率的な手順を提案する。
- 参考スコア(独自算出の注目度): 84.62530743899025
- License:
- Abstract: Today's probabilistic language generators fall short when it comes to producing coherent and fluent text despite the fact that the underlying models perform well under standard metrics, e.g., perplexity. This discrepancy has puzzled the language generation community for the last few years. In this work, we posit that the abstraction of natural language generation as a discrete stochastic process--which allows for an information-theoretic analysis--can provide new insights into the behavior of probabilistic language generators, e.g., why high-probability texts can be dull or repetitive. Humans use language as a means of communicating information, aiming to do so in a simultaneously efficient and error-minimizing manner; in fact, psycholinguistics research suggests humans choose each word in a string with this subconscious goal in mind. We formally define the set of strings that meet this criterion: those for which each word has an information content close to the expected information content, i.e., the conditional entropy of our model. We then propose a simple and efficient procedure for enforcing this criterion when generating from probabilistic models, which we call locally typical sampling. Automatic and human evaluations show that, in comparison to nucleus and top-k sampling, locally typical sampling offers competitive performance (in both abstractive summarization and story generation) in terms of quality while consistently reducing degenerate repetitions.
- Abstract(参考訳): 今日の確率的言語ジェネレータは、基本的なモデルが標準的なメトリクス、例えばパープレキシティの下でうまく機能しているにもかかわらず、一貫性と流動性のあるテキストを生成するという点では不足している。
この不一致は、ここ数年、言語生成コミュニティを悩ませてきた。
本研究では,情報理論解析を可能にする離散確率過程としての自然言語生成の抽象化が,確率的言語生成器の振る舞い,例えば高確率テキストが退屈あるいは反復的である理由について,新たな洞察を与えることができると仮定する。
人間は情報を伝達する手段として言語を使用し、同時に効率的で誤りを最小化することを目的としている。
この基準を満たす文字列の集合を正式に定義する:各単語が期待される情報内容に近い情報内容を持つもの、すなわち、我々のモデルの条件エントロピーである。
次に、確率モデルから生成する際のこの基準を、局所的な典型的なサンプリングと呼ぶ、シンプルで効率的な方法で強制する手法を提案する。
自動的および人為的評価は、核とトップkサンプリングと比較して、局所的な典型的なサンプリングは、品質の面で(抽象的な要約とストーリー生成の両方において)競争性能を提供しながら、縮退反復を一貫して減少させることを示している。
関連論文リスト
- A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。
先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文 参考訳(メタデータ) (2021-01-24T20:16:12Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。