Fugu-MT 論文翻訳(概要): Typical Decoding for Natural Language Generation

論文の概要: Typical Decoding for Natural Language Generation

arxiv url: http://arxiv.org/abs/2202.00666v1
Date: Tue, 1 Feb 2022 18:58:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-02 13:32:58.226432
Title: Typical Decoding for Natural Language Generation
Title（参考訳）: 自然言語生成のための典型的復号
Authors: Clara Meister, Tiago Pimentel, Gian Wiher, Ryan Cotterell
Abstract要約: 本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。典型的なサンプリングでは,品質面での競争性能が期待できる。
参考スコア（独自算出の注目度）: 76.69397802617064
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite achieving incredibly low perplexities on myriad natural language corpora, today's language models still often underperform when used to generate text. This dichotomy has puzzled the language generation community for the last few years. In this work, we posit that the abstraction of natural language as a communication channel (\`a la Shannon, 1948) can provide new insights into the behaviors of probabilistic language generators, e.g., why high-probability texts can be dull or repetitive. Humans use language as a means of communicating information, and do so in an efficient yet error-minimizing manner, choosing each word in a string with this (perhaps subconscious) goal in mind. We propose that generation from probabilistic models should mimic this behavior. Rather than always choosing words from the high-probability region of the distribution--which have a low Shannon information content--we sample from the set of words with an information content close to its expected value, i.e., close to the conditional entropy of our model. This decision criterion can be realized through a simple and efficient implementation, which we call typical sampling. Automatic and human evaluations show that, in comparison to nucleus and top-k sampling, typical sampling offers competitive performance in terms of quality while consistently reducing the number of degenerate repetitions.
Abstract（参考訳）: 無限の自然言語コーパスにおいて驚くほど低い難易度を達成しているにもかかわらず、今日の言語モデルは、テキストを生成するときにしばしば性能が劣っている。この二分法がここ数年、言語生成コミュニティを混乱させてきた。本稿では,コミュニケーションチャネルとしての自然言語の抽象化(1948年)が,確率的言語生成器の振る舞い,例えば高確率テキストが退屈あるいは反復的である理由について,新たな洞察を与えることができると仮定する。人間は、情報を伝達する手段として言語を使用し、効率的かつ誤りを最小化する方法で、この目的を念頭に置いて、文字列中の各単語を選択する。確率モデルからの生成はこの振る舞いを模倣すべきである。低シャノン情報コンテンツを有する分布の高確率領域から常に単語を選択するのではなく、我々は、その期待値に近い情報内容を持つ単語の集合から、すなわち、モデルの条件エントロピーに近い単語をサンプリングした。この決定基準は、典型的なサンプリングと呼ばれる単純で効率的な実装によって実現できる。自動的および人為的評価は、核とトップkサンプリングと比較して、典型的なサンプリングは品質の点で競争性能を提供し、縮退繰り返しの回数を一貫して減少させることを示している。

関連論文リスト

A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文参考訳（メタデータ） (2024-06-14T17:38:21Z)
Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models [0.0]
言語モデルにより生成された大きなテキストの対数的パープレキシティは、トークン分布の平均エントロピーに収束しなければならないことを示す。これは、言語モデルによって生成される全ての長い合成テキストが属しなければならない「典型的集合」を定義する。その結果, (a) 合成AI生成テキストの検出や, (b) テキストが言語モデルの学習に使用されたかどうかの検証など,重要な実践的問題への応用の可能性が示唆された。
論文参考訳（メタデータ） (2024-05-22T16:23:40Z)
A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文参考訳（メタデータ） (2022-12-19T18:14:36Z)
Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-15T17:58:13Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文参考訳（メタデータ） (2022-03-31T17:43:53Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文参考訳（メタデータ） (2021-11-11T16:57:53Z)
Evaluating Models of Robust Word Recognition with Serial Reproduction [8.17947290421835]
広範囲確率的生成言語モデルと人間の言語的期待を捉える能力の比較を行った。先行した言語的文脈の抽象表現を利用するこれらのモデルは、連続再生の過程で人々が行った変化を最もよく予測する。
論文参考訳（メタデータ） (2021-01-24T20:16:12Z)
Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文参考訳（メタデータ） (2020-02-09T19:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。