論文の概要: Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark
- arxiv url: http://arxiv.org/abs/2201.05294v1
- Date: Fri, 14 Jan 2022 03:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-17 22:00:10.357997
- Title: Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark
- Title(参考訳): 多変数セマンティックオーバーラップタスクの評価とベンチマーク
- Authors: Naman Bansal, Mousumi Akter and Shubhra Kanti Karmaker Santu
- Abstract要約: 本稿では,MNSO(Multi-Narrative Semantic Overlap)と呼ばれる重要なNLPタスクを紹介する。
ウェブから2,925の物語のペアをクロールして1つを作り、それから、人間のアノテータをアクティベートすることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。
SEM-F1(semantic F1)と呼ばれる新しい高精度リコール方式の評価基準を定式化する。
実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。
- 参考スコア(独自算出の注目度): 4.303515688770516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce an important yet relatively unexplored NLP task
called Multi-Narrative Semantic Overlap (MNSO), which entails generating a
Semantic Overlap of multiple alternate narratives. As no benchmark dataset is
readily available for this task, we created one by crawling 2,925 narrative
pairs from the web and then, went through the tedious process of manually
creating 411 different ground-truth semantic overlaps by engaging human
annotators. As a way to evaluate this novel task, we first conducted a
systematic study by borrowing the popular ROUGE metric from text-summarization
literature and discovered that ROUGE is not suitable for our task.
Subsequently, we conducted further human annotations/validations to create 200
document-level and 1,518 sentence-level ground-truth labels which helped us
formulate a new precision-recall style evaluation metric, called SEM-F1
(semantic F1). Experimental results show that the proposed SEM-F1 metric yields
higher correlation with human judgement as well as higher inter-rater-agreement
compared to ROUGE metric.
- Abstract(参考訳): 本稿では,MNSO(Multi-Narrative Semantic Overlap)と呼ばれる,複数物語のセマンティックオーバーラップを生成する重要なNLPタスクを紹介する。
このタスクでベンチマークデータセットが利用できないため、Webから2,925の物語ペアをクロールして作成し、人間のアノテータを係合させることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。
このタスクを評価する方法として,まずテキスト要約文献から一般的なルージュ計量を借用して体系的な研究を行い,ルージュが課題に適さないことを発見した。
その後、200の文書レベルと1,518の文レベルの基底ラベルを作成し、sem-f1(semantic f1)と呼ばれる新しい精度リコールスタイル評価指標の作成に役立った。
実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Text Summarization Using Large Language Models: A Comparative Study of
MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models [0.0]
Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。
本稿では,MPT-7b-instruct,falcon-7b-instruct,OpenAI ChatGPT text-davinci-003 モデルなど,多種多様な LLM を用いたテキスト要約について検討する。
論文 参考訳(メタデータ) (2023-10-16T14:33:02Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。