論文の概要: On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation
- arxiv url: http://arxiv.org/abs/2205.16001v4
- Date: Thu, 29 Jun 2023 15:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 17:01:36.982443
- Title: On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation
- Title(参考訳): テキスト生成評価における埋め込み,クラスタ,文字列の有用性について
- Authors: Tiago Pimentel, Clara Meister, Ryan Cotterell
- Abstract要約: Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
- 参考スコア(独自算出の注目度): 86.19634542434711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A good automatic evaluation metric for language generation ideally correlates
highly with human judgements of text quality. Yet, there is a dearth of such
metrics, which inhibits the rapid and efficient progress of language
generators. One exception is the recently proposed Mauve. In theory, Mauve
measures an information-theoretic divergence between two probability
distributions over strings: one representing the language generator under
evaluation; the other representing the true natural language distribution.
Mauve's authors argue that its success comes from the qualitative properties of
their proposed divergence. Yet in practice, as this divergence is uncomputable,
Mauve approximates it by measuring the divergence between multinomial
distributions over clusters instead, where cluster assignments are attained by
grouping strings based on a pre-trained language model's embeddings. As we
show, however, this is not a tight approximation -- in either theory or
practice. This begs the question: why does Mauve work so well? In this work, we
show that Mauve was right for the wrong reasons, and that its newly proposed
divergence is not necessary for its high performance. In fact, classical
divergences paired with its proposed cluster-based approximation may actually
serve as better evaluation metrics. We finish the paper with a probing
analysis; this analysis leads us to conclude that -- by encoding syntactic- and
coherence-level features of text, while ignoring surface-level features -- such
cluster-based substitutes to string distributions may simply be better for
evaluating state-of-the-art language generators.
- Abstract(参考訳): 言語生成のための優れた自動評価指標は、テキスト品質の人間の判断と理想的に相関する。
しかし、そのようなメトリクスが多数存在し、言語ジェネレータの迅速かつ効率的な進歩を阻害している。
例外は、最近提案されたMauveである。
理論上、モーヴは文字列上の2つの確率分布(評価中の言語生成器を表すもの、真の自然言語分布を表すもの)の間の情報理論的な分岐を測定する。
モーヴの著者は、その成功は彼らの提案された発散の質的な性質に由来すると主張している。
しかし実際には、この分散は計算不能であるため、Mauveはクラスタ上の多項分布間のばらつきを測定して近似し、クラスタ割り当ては事前訓練された言語モデルの埋め込みに基づいて文字列をグループ化することで達成される。
しかし、私たちが示すように、これは理論や実践において厳密な近似ではない。
mauveはなぜそんなにうまく機能するのか?
本研究は,Mauveが誤った理由で正しいことを示し,新たに提案された発散はハイパフォーマンスには必要ないことを示した。
実際、古典的なダイバージェンスとクラスタベースの近似が組み合わさって、より優れた評価指標として機能する可能性がある。
この分析により、テキストの構文的およびコヒーレンスレベルの特徴をエンコードすることで、表面的な特徴を無視しながら、これらのクラスタベースの文字列分布の代用品は、単に最先端言語ジェネレータを評価するのに適していると結論づけることができます。
関連論文リスト
- Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Probabilistic Method of Measuring Linguistic Productivity [0.0]
本稿では, 言語的生産性を客観的に評価する手法を提案する。
トークン周波数は生産性指標を支配せず、基地のサンプリングに自然に影響を及ぼす。
コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。
論文 参考訳(メタデータ) (2023-08-24T08:36:28Z) - On the Efficacy of Sampling Adapters [82.5941326570812]
サンプリングアダプタを理解するための統一的なフレームワークを提案する。
彼らが実施するシフトは、正確さとリコールの間のトレードオフと見なすことができる、と私たちは主張する。
いくつかの精度強調尺度は、サンプリングアダプタが真の分布とより整合した確率分布をもたらすことを確実に示している。
論文 参考訳(メタデータ) (2023-07-07T17:59:12Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Distributional Discrepancy: A Metric for Unconditional Text Generation [6.6159481812419045]
非条件テキスト生成の目的は、実際の文でモデルを訓練し、トレーニングデータと同じ品質と多様性の新規な文を生成することである。
生成した訓練文と実際の訓練文の相違に基づいて, 生成物を評価するために, 分散不一致(DD)の新たな指標を考案した。
DDは、これらの生成モデルをランキングする上で、既存の3つの指標よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-05-04T05:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。