論文の概要: An Empirical Study On Contrastive Search And Contrastive Decoding For
Open-ended Text Generation
- arxiv url: http://arxiv.org/abs/2211.10797v1
- Date: Sat, 19 Nov 2022 20:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:29:43.292810
- Title: An Empirical Study On Contrastive Search And Contrastive Decoding For
Open-ended Text Generation
- Title(参考訳): オープンエンドテキスト生成のためのコントラスト検索とコントラスト復号に関する実証的研究
- Authors: Yixuan Su and Jialu Xu
- Abstract要約: 我々は,オープンエンドテキスト生成において,コントラスト検索(CS)とコントラストデコーディング(CD)を実証的に比較した。
CSはMAUVEメートル法ではCDより劣るが、多様性とコヒーレンスメートル法ではCDを大きく上回っている。
人間の注釈はCDよりもCSの方が圧倒的に有利である。
- 参考スコア(独自算出の注目度): 10.359823072178024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the study, we empirically compare the two recently proposed decoding
methods, i.e. Contrastive Search (CS) and Contrastive Decoding (CD), for
open-ended text generation. The automatic evaluation results suggest that,
while CS performs worse than CD on the MAUVE metric, it substantially surpasses
CD on the diversity and coherence metrics. More notably, extensive human
evaluations across three different domains demonstrate that human annotators
are universally more in favor of CS over CD with substantial margins.
The contradicted results between MAUVE and human evaluations reveal that
MAUVE does not accurately reflect human preferences. Therefore, we call upon
the research community to develop better evaluation metrics for open-ended text
generation. To ensure the reproducibility of our work, we have open-sourced all
our code, evaluation results, as well as human annotations at
https://github.com/yxuansu/Contrastive_Search_versus_Contrastive_Decoding.
- Abstract(参考訳): 本研究では,最近提案された2つの復号法,すなわちコントラスト検索 (cs) とコントラスト復号法 (cd) をオープンエンドテキスト生成のために実験的に比較した。
自動評価の結果, CSはMAUVE測定値のCDよりも劣るが, 多様性とコヒーレンス測定値のCDを大きく上回っていることが示唆された。
より注目すべきは、3つの異なるドメインにわたる広範囲な人間評価によって、人間の注釈はcdよりもcdよりも普遍的に有利であることが示される。
MAUVEと人間評価の矛盾した結果は、MAUVEが人間の好みを正確に反映していないことを示している。
そこで我々は,オープンエンドテキスト生成のためのより良い評価指標の開発を研究コミュニティに呼びかける。
作業の再現性を確保するため、私たちはhttps://github.com/yxuansu/Contrastive_Search_versus_Contrastive_Decodingで、コード、評価結果、および人間のアノテーションをオープンソース化しました。
関連論文リスト
- A Novel Method to Metigate Demographic and Expert Bias in ICD Coding with Causal Inference [6.524062529847299]
因果推論(DECI)によるICD符号化におけるデモグラフィックとエキスパートのバイアスを軽減する新しい手法を提案する。
我々は,3つの異なる経路でモデルが予測するICD符号化において,因果関係に基づく新しい解釈を提供する。また,DECによる反ファクト推論は,人口統計学と専門家の偏見を緩和する。実験結果から,DECが最先端のモデルより優れており,正確で偏りのないICD符号化の大幅な進歩をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-10-18T07:36:57Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts [15.866519123942457]
自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
論文 参考訳(メタデータ) (2023-10-25T03:21:20Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation [91.16551253297588]
Counterfactual Generation via Retrieval and Editing (CORE) は、トレーニングのための多様な反事実摂動を生成するための検索強化された生成フレームワークである。
COREはまず、学習されたバイエンコーダを用いて、タスク関連未ラベルテキストコーパス上で密集した検索を行う。
COREはこれらを、反ファクト編集のために、数ショットの学習機能を備えた大規模な言語モデルへのプロンプトに組み込む。
論文 参考訳(メタデータ) (2022-10-10T17:45:38Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation [41.360219974284114]
オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
論文 参考訳(メタデータ) (2021-02-02T11:59:28Z) - SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for
Multi-Document Summarization [31.082618343998533]
本稿では,その意味的類似度を疑似参照要約と比較することにより,要約の質を評価するSUPERTを提案する。
最先端の教師なし評価指標と比較すると、SUPERTは人間の評価と18~39%の相関がある。
我々は、ニューラルネットワークに基づく強化学習要約器を誘導する報酬としてSUPERTを使用し、最先端の教師なし要約器と比較して良好な性能を得る。
論文 参考訳(メタデータ) (2020-05-07T19:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。