論文の概要: A Novel Computational and Modeling Foundation for Automatic Coherence Assessment
- arxiv url: http://arxiv.org/abs/2310.00598v2
- Date: Tue, 13 Aug 2024 13:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 23:24:38.587282
- Title: A Novel Computational and Modeling Foundation for Automatic Coherence Assessment
- Title(参考訳): 自動コヒーレンス評価のための新しい計算モデリング基盤
- Authors: Aviya Maimon, Reut Tsarfaty,
- Abstract要約: コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
本研究では,3つの条件 – em cohesion, consistency, emlevance – から成る談話コヒーレント(concourse coherent)を形式的に定義し,これらの条件をそれぞれ計算タスクとして定式化する。
人間によるコヒーレンス評価のための2つのベンチマークで、そのうち1つは、自動生成された500個の短編記事、もう1つは4万個の現実世界のテキストを含む。
- 参考スコア(独自算出の注目度): 13.430637580980164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coherence is an essential property of well-written texts, that refers to the way textual units relate to one another. In the era of generative AI, coherence assessment is essential for many NLP tasks; summarization, generation, long-form question-answering, and more. However, in NLP {coherence} is an ill-defined notion, not having a formal definition or evaluation metrics, that would allow for large-scale automatic and systematic coherence assessment. To bridge this gap, in this work we employ the formal linguistic definition of \citet{Reinhart:1980} of what makes a discourse coherent, consisting of three conditions -- {\em cohesion, consistency} and {\em relevance} -- and formalize these conditions as respective computational tasks. We hypothesize that (i) a model trained on all of these tasks will learn the features required for coherence detection, and that (ii) a joint model for all tasks will exceed the performance of models trained on each task individually. On two benchmarks for coherence scoring rated by humans, one containing 500 automatically-generated short stories and another containing 4k real-world texts, our experiments confirm that jointly training on the proposed tasks leads to better performance on each task compared with task-specific models, and to better performance on assessing coherence overall, compared with strong baselines. We conclude that the formal and computational setup of coherence as proposed here provides a solid foundation for advanced methods of large-scale automatic assessment of coherence.
- Abstract(参考訳): コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
生成AIの時代において、コヒーレンスアセスメントは多くのNLPタスクに必須である。
しかし、NLP {coherence} では、形式的な定義や評価基準を持たず、大規模な自動的かつ体系的なコヒーレンス評価を可能にする不明確な概念である。
このギャップを埋めるために、この研究では、談話コヒーレントを作るための公式な言語定義である「citet{Reinhart:1980}」を用い、それぞれの計算タスクとしてこれらの条件を形式化する。
私たちはそれを仮定する
(i)これらすべてのタスクで訓練されたモデルがコヒーレンス検出に必要な特徴を学習し、それ
二 すべてのタスクのジョイントモデルは、各タスクで個別に訓練されたモデルの性能を超えます。
人によるコヒーレンス評価のベンチマークでは,500件の短編記事が自動生成され,さらに4万件のリアルタイムテキストが得られた。
ここでは,コヒーレンスの形式的および計算的設定が,コヒーレンスの大規模自動評価の高度な手法の基礎となることを結論する。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - CoUDA: Coherence Evaluation via Unified Data Augmentation [49.37157483044349]
コヒーレンス評価は、談話の組織と構造を評価することを目的としている。
談話構造に関する言語理論から着想を得て,CoUDAというデータ拡張フレームワークを提案する。
233Mパラメータだけで、CoUDAはポイントワイドのスコアリングとペアワイドのランキングタスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-31T13:19:36Z) - BBScore: A Brownian Bridge Based Metric for Assessing Text Coherence [20.507596002357655]
コヒーレントテキストは本質的に文間の連続的かつ密着的な相互作用を示す。
BBScore(英: BBScore)は、ブラウン橋理論において、テキストコヒーレンスを評価するための基準のない計量である。
論文 参考訳(メタデータ) (2023-12-28T08:34:17Z) - CoheSentia: A Novel Benchmark of Incremental versus Holistic Assessment
of Coherence in Generated Texts [15.866519123942457]
自動生成テキストの人間知覚コヒーレンスに関する新しいベンチマークである sc CoheSentia を紹介する。
我々のベンチマークには、自動生成および人称注釈付き500の段落が含まれており、それぞれが両方の方法で注釈付けされている。
解析の結果,インクリメンタルモードにおけるアノテータ間の合意は,総合的な代替よりも高いことがわかった。
論文 参考訳(メタデータ) (2023-10-25T03:21:20Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Neural Coreference Resolution based on Reinforcement Learning [53.73316523766183]
コアレゾリューションシステムは2つのサブタスクを解決する必要がある。
ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。
本稿では,アクターをベースとした強化学習型ニューラルコア参照分解システムを提案する。
論文 参考訳(メタデータ) (2022-12-18T07:36:35Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。