論文の概要: $\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization
Evaluation
- arxiv url: http://arxiv.org/abs/2402.19457v1
- Date: Thu, 29 Feb 2024 18:51:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:30:07.129718
- Title: $\texttt{COSMIC}$: Mutual Information for Task-Agnostic Summarization
Evaluation
- Title(参考訳): texttt{cosmic}$:タスクに依存しない要約評価のための相互情報
- Authors: Maxime Darrin, Philippe Formont, Jackie Chi Kit Cheung, Pablo
Piantanida
- Abstract要約: 本稿では,タスク成果を保存しつつ,下流タスクに有用な要約を生成するために,その能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。
我々は,この指標の実践的実装として$textttCOSMIC$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を実証した。
- 参考スコア(独自算出の注目度): 42.91848251560743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing the quality of summarizers poses significant challenges. In
response, we propose a novel task-oriented evaluation approach that assesses
summarizers based on their capacity to produce summaries that are useful for
downstream tasks, while preserving task outcomes. We theoretically establish a
direct relationship between the resulting error probability of these tasks and
the mutual information between source texts and generated summaries. We
introduce $\texttt{COSMIC}$ as a practical implementation of this metric,
demonstrating its strong correlation with human judgment-based metrics and its
effectiveness in predicting downstream task performance. Comparative analyses
against established metrics like $\texttt{BERTScore}$ and $\texttt{ROUGE}$
highlight the competitive performance of $\texttt{COSMIC}$.
- Abstract(参考訳): 要約の質を評価することは大きな課題となる。
そこで本研究では,タスク成果を保ちつつ,下流タスクに有用な要約を生成する能力に基づいて要約者を評価する新しいタスク指向評価手法を提案する。
理論的には、これらのタスクのエラー確率と、ソーステキストと生成した要約の相互情報との直接関係を確立する。
我々は,この指標の実践的実装として$\texttt{COSMIC}$を導入し,人間の判断に基づく指標との強い相関と下流タスク性能の予測の有効性を示した。
確立されたメトリクスに対する比較分析: $\texttt{bertscore}$と$\texttt{rouge}$は、$\texttt{cosmic}$の競争力を強調する。
関連論文リスト
- Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - USB: A Unified Summarization Benchmark Across Tasks and Domains [68.82726887802856]
ウィキペディア由来のベンチマークを導入し、クラウドソースアノテーションの豊富なセットを補完し、8ドルの相互関連タスクをサポートする。
このベンチマークで様々な手法を比較し、複数のタスクにおいて、中程度の大きさの微調整されたモデルが、より大きな数発の言語モデルよりも一貫して優れていることを発見した。
論文 参考訳(メタデータ) (2023-05-23T17:39:54Z) - "It's a Match!" -- A Benchmark of Task Affinity Scores for Joint
Learning [74.14961250042629]
MTL(Multi-Task Learning)は、その成功の条件を特徴づけることが、ディープラーニングにおいて依然としてオープンな問題である、と約束する。
共同学習におけるタスク親和性の推定は重要な取り組みである。
最近の研究は、訓練条件自体がMTLの結果に重大な影響を与えることを示唆している。
しかし,本研究では,タスク親和性評価手法の有効性を評価するためのベンチマークが欠落している。
論文 参考訳(メタデータ) (2023-01-07T15:16:35Z) - UniSumm and SummZoo: Unified Model and Diverse Benchmark for Few-Shot
Summarization [54.59104881168188]
textscUniSummは、複数の要約タスクで事前訓練された、統合された数ショットの要約モデルである。
textscSummZooは、スクリーンショットの要約をよりよく評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2022-11-17T18:54:47Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。