論文の概要: CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts
- arxiv url: http://arxiv.org/abs/2310.16329v1
- Date: Wed, 25 Oct 2023 03:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 16:57:32.300512
- Title: CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts
- Title(参考訳): CoheSentia: 生成したテキストにおけるコヒーレンスのインクリメンタルとホリスティック評価の新しいベンチマーク
- Authors: Aviya Maimon and Reut Tsarfaty
- Abstract要約: 自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
- 参考スコア(独自算出の注目度): 15.866519123942457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coherence is a linguistic term that refers to the relations between small
textual units (sentences, propositions), which make the text logically
consistent and meaningful to the reader. With the advances of generative
foundational models in NLP, there is a pressing need to automatically assess
the human-perceived coherence of automatically generated texts. Up until now,
little work has been done on explicitly assessing the coherence of generated
texts and analyzing the factors contributing to (in)coherence. Previous work on
the topic used other tasks, e.g., sentence reordering, as proxies of coherence,
rather than approaching coherence detection heads on. In this paper, we
introduce {\sc CoheSentia}, a novel benchmark of human-perceived coherence of
automatically generated texts. Our annotation protocol reflects two
perspectives; one is global, assigning a single coherence score, and the other
is incremental, scoring sentence by sentence. The incremental method produces
an (in)coherence score for each text fragment and also pinpoints reasons for
incoherence at that point. Our benchmark contains 500 automatically-generated
and human-annotated paragraphs, each annotated in both methods, by multiple
raters. Our analysis shows that the inter-annotator agreement in the
incremental mode is higher than in the holistic alternative, and our
experiments show that standard LMs fine-tuned for coherence detection show
varied performance on the different factors contributing to (in)coherence. All
in all, these models yield unsatisfactory performance, emphasizing the need for
developing more reliable methods for coherence assessment.
- Abstract(参考訳): コヒーレンス(英: Coherence)は、論理的に一貫性があり、読者にとって意味のある、小さなテキスト単位(文、命題)の関係を指す言語用語である。
nlpにおける生成基礎モデルの進歩により、自動生成テキストの人間が知覚するコヒーレンスを自動的に評価する必要性が高まっている。
これまで、生成したテキストのコヒーレンスを明示的に評価し、コヒーレンスに寄与する要因を分析する作業はほとんど行われていない。
このトピックに関する以前の研究は、コヒーレンス検出の先頭に近づくのではなく、コヒーレンスのプロキシとして、例えば文の並べ替えなどの他のタスクを使った。
本稿では,自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである {\sc CoheSentia} を紹介する。
アノテーションプロトコルは2つの視点を反映している。1つはグローバルで、1つはコヒーレンススコアを割り当て、もう1つはインクリメンタルで、文章は文ごとにスコア付けする。
インクリメンタルなメソッドは、各テキストフラグメントに対して(イン)コヒーレンススコアを生成し、その時点でのコヒーレンスの原因も特定する。
提案ベンチマークでは, 自動生成および人称注釈付き500段落を, それぞれにアノテートした。
解析の結果,インクリメンタルモードにおけるアノテーション間合意は,コヒーレンス検出のために微調整された標準lmsは,コヒーレンスに寄与するさまざまな要因において,様々な性能を示すことがわかった。
全体として、これらのモデルは不満足なパフォーマンスをもたらし、より信頼性の高いコヒーレンス評価方法の開発の必要性を強調している。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [20.507596002357655]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - A Novel Computational and Modeling Foundation for Automatic Coherence Assessment [13.430637580980164]
コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
本研究では,3つの条件 – em cohesion, consistency, emlevance – から成る談話コヒーレント(concourse coherent)を形式的に定義し,これらの条件をそれぞれ計算タスクとして定式化する。
人間によるコヒーレンス評価のための2つのベンチマークで、そのうち1つは、自動生成された500個の短編記事、もう1つは4万個の現実世界のテキストを含む。
論文 参考訳(メタデータ) (2023-10-01T07:06:17Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Compression, Transduction, and Creation: A Unified Framework for
Evaluating Natural Language Generation [85.32991360774447]
自然言語生成(NLG)は幅広いタスクにまたがっており、それぞれが特定の目的のために機能する。
NLGタスクにおける情報変化の性質に基づく統一的な視点を提案する。
我々は,異なるNLGタスクの重要な側面を評価するのに適した,解釈可能なメトリクスのファミリーを開発する。
論文 参考訳(メタデータ) (2021-09-14T01:00:42Z) - Lexically-constrained Text Generation through Commonsense Knowledge
Extraction and Injection [62.071938098215085]
我々は、ある入力概念のセットに対して妥当な文を生成することを目的としているcommongenベンチマークに焦点を当てる。
生成したテキストの意味的正しさを高めるための戦略を提案する。
論文 参考訳(メタデータ) (2020-12-19T23:23:40Z) - Hierarchical Text Interaction for Rating Prediction [8.400688907233398]
評価予測のための階層型テキストインタラクションモデルを提案する。
階層の異なる各ユーザ-イテムペア間のセマンティックな相関を利用する。
5つの実世界のデータセットの実験により、HTIは最先端のモデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-10-15T09:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。