論文の概要: CoUDA: Coherence Evaluation via Unified Data Augmentation
- arxiv url: http://arxiv.org/abs/2404.00681v1
- Date: Sun, 31 Mar 2024 13:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:20:51.089543
- Title: CoUDA: Coherence Evaluation via Unified Data Augmentation
- Title(参考訳): CoUDA: 統一データ拡張によるコヒーレンス評価
- Authors: Dawei Zhu, Wenhao Wu, Yifan Song, Fangwei Zhu, Ziqiang Cao, Sujian Li,
- Abstract要約: コヒーレンス評価は、談話の組織と構造を評価することを目的としている。
談話構造に関する言語理論から着想を得て,CoUDAというデータ拡張フレームワークを提案する。
233Mパラメータだけで、CoUDAはポイントワイドのスコアリングとペアワイドのランキングタスクの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.37157483044349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coherence evaluation aims to assess the organization and structure of a discourse, which remains challenging even in the era of large language models. Due to the scarcity of annotated data, data augmentation is commonly used for training coherence evaluation models. However, previous augmentations for this task primarily rely on heuristic rules, lacking designing criteria as guidance. In this paper, we take inspiration from linguistic theory of discourse structure, and propose a data augmentation framework named CoUDA. CoUDA breaks down discourse coherence into global and local aspects, and designs augmentation strategies for both aspects, respectively. Especially for local coherence, we propose a novel generative strategy for constructing augmentation samples, which involves post-pretraining a generative model and applying two controlling mechanisms to control the difficulty of generated samples. During inference, CoUDA also jointly evaluates both global and local aspects to comprehensively assess the overall coherence of a discourse. Extensive experiments in coherence evaluation show that, with only 233M parameters, CoUDA achieves state-of-the-art performance in both pointwise scoring and pairwise ranking tasks, even surpassing recent GPT-3.5 and GPT-4 based metrics.
- Abstract(参考訳): コヒーレンス評価(Coherence evaluation)は、大規模言語モデルの時代においても困難な言論の組織と構造を評価することを目的としている。
注釈付きデータの不足により、コヒーレンス評価モデルのトレーニングにデータ拡張が一般的に使用される。
しかし、このタスクに対する以前の拡張は主にヒューリスティックなルールに依存しており、ガイダンスとして設計基準が欠如している。
本稿では、談話構造に関する言語理論から着想を得た上で、CoUDAというデータ拡張フレームワークを提案する。
CoUDAは、談話のコヒーレンスをグローバルな側面とローカルな側面に分割し、それぞれの側面の強化戦略を設計する。
特に局所的コヒーレンスのために,生成モデルのポストプレトレーニングと2つの制御機構を適用して生成サンプルの難易度を制御する,拡張サンプル構築のための新しい生成戦略を提案する。
推論中、CoUDAはグローバルな側面とローカルな側面の両方を共同で評価し、談話の全体的な一貫性を包括的に評価する。
コヒーレンス評価における大規模な実験により、CoUDAは233Mのパラメータしか持たず、最近のGPT-3.5とGPT-4を上回りながら、ポイントワイドのスコアリングとペアワイドのランク付けの両方において最先端のパフォーマンスを達成している。
関連論文リスト
- Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - A Novel Computational and Modeling Foundation for Automatic Coherence Assessment [13.430637580980164]
コヒーレンス(Coherence)は、テキスト単位が相互に関連付ける方法を指す、よく書かれたテキストの本質的な性質である。
本研究では,3つの条件 – em cohesion, consistency, emlevance – から成る談話コヒーレント(concourse coherent)を形式的に定義し,これらの条件をそれぞれ計算タスクとして定式化する。
人間によるコヒーレンス評価のための2つのベンチマークで、そのうち1つは、自動生成された500個の短編記事、もう1つは4万個の現実世界のテキストを含む。
論文 参考訳(メタデータ) (2023-10-01T07:06:17Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - NICO++: Towards Better Benchmarking for Domain Generalization [44.11418240848957]
NICO++というラベル付きドメインを持つ大規模ベンチマークを提案する。
NICO++は現在のDGデータセットと比較して優れた評価能力を示している。
論文 参考訳(メタデータ) (2022-04-17T15:57:12Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Knowledge-based Review Generation by Coherence Enhanced Text Planning [45.473253542837995]
我々は,知識グラフ(KGs)に基づく新しいコヒーレンス拡張テキストプランニングモデル(CETP)を提案し,レビュー生成のためのグローバルおよびローカルのコヒーレンスを改善する。
グローバルコヒーレンスのために,サブグラフとノードレベルの双方に注意を払って,サブグラフ間の相関性を高める階層的自己意図アーキテクチャを設計する。
3つのデータセットの実験は、生成されたテキストのコンテンツコヒーレンスを改善するためのモデルの有効性を確認します。
論文 参考訳(メタデータ) (2021-05-09T02:12:05Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。