論文の概要: Shared Task on Evaluating Accuracy in Natural Language Generation
- arxiv url: http://arxiv.org/abs/2006.12234v2
- Date: Fri, 6 Nov 2020 19:00:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:15:17.334375
- Title: Shared Task on Evaluating Accuracy in Natural Language Generation
- Title(参考訳): 自然言語生成における精度評価の共通課題
- Authors: Ehud Reiter and Craig Thomson
- Abstract要約: 参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。
生成したテキストの精度を評価するための方法論とアルゴリズムの共有タスクを提案する。
- 参考スコア(独自算出の注目度): 0.190365714903665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a shared task on methodologies and algorithms for evaluating the
accuracy of generated texts. Participants will measure the accuracy of
basketball game summaries produced by NLG systems from basketball box score
data.
- Abstract(参考訳): 本稿では,生成テキストの精度評価のための手法とアルゴリズムの共有タスクを提案する。
参加者は、バスケットボールボックススコアデータからNLGシステムによって作成されるバスケットボールゲームサマリーの精度を測定する。
関連論文リスト
- Large Language Models for Automatic Milestone Detection in Group Discussions [8.370427885807004]
本研究は, 発話が散発的あるいは不整形であるグループ口頭コミュニケーションタスクの録音におけるLLMの性能について検討する。
任意の順序で達成可能ないくつかのマイルストーンを持つパズルを含むグループタスク実験を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:32:22Z) - Exploring Prompting Large Language Models as Explainable Metrics [0.0]
本稿では,Large Language Models (LLMs) を用いた要約タスクの説明可能な評価のためのゼロショットプロンプトベースの戦略を提案する。
自然言語処理(NLP)における評価指標としてのLCMの有望な可能性を示す実験を行った。
得られた最良プロンプトの性能は、テストデータ上のテキスト要約タスクにおける人間の評価と、0.477のKendall相関を達成した。
論文 参考訳(メタデータ) (2023-11-20T06:06:22Z) - Rank Your Summaries: Enhancing Bengali Text Summarization via
Ranking-based Approach [0.0]
本稿では,単純かつ効果的なランキングベースアプローチを用いて,与えられたテキストの最も正確かつ情報的な要約を特定することを目的とする。
事前学習した4つの要約モデルを用いて要約を生成し、次いでテキストランキングアルゴリズムを適用して最も適した要約を識別する。
実験結果から, 事前学習したトランスモデルの強度を利用して, ベンガル文字要約の精度と有効性を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2023-07-14T15:07:20Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - SWING: Balancing Coverage and Faithfulness for Dialogue Summarization [67.76393867114923]
本稿では,自然言語推論(NLI)モデルを用いて,事実の不整合を回避し,カバレッジを向上させることを提案する。
我々は、NLIを用いて詳細なトレーニング信号を計算し、モデルがカバーされていない参照サマリーのコンテンツを生成することを奨励する。
DialogSumおよびSAMSumデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-01-25T09:33:11Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Generation Challenges: Results of the Accuracy Evaluation Shared Task [0.0]
4つのチームがこのタスクの評価手法を提出しました。
最高のパフォーマンスの応募は、この難しいタスクで励まされた。
すべての自動提出は、意味的にまたは実用的に複雑である事実的エラーを検出するのに苦労した。
論文 参考訳(メタデータ) (2021-08-12T10:24:34Z) - A Gold Standard Methodology for Evaluating Accuracy in Data-To-Text
Systems [0.190365714903665]
本稿では,生成したテキストの精度を高精度に評価する手法を提案する。
我々は,コンピュータが生成したバスケットボールのサマリーの精度を評価するために方法論を用いた。
論文 参考訳(メタデータ) (2020-11-08T14:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。