論文の概要: NovAScore: A New Automated Metric for Evaluating Document Level Novelty
- arxiv url: http://arxiv.org/abs/2409.09249v2
- Date: Wed, 18 Sep 2024 17:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 12:19:06.784604
- Title: NovAScore: A New Automated Metric for Evaluating Document Level Novelty
- Title(参考訳): NovAScore: ドキュメントレベルの新規性を評価するための新しい自動化メトリック
- Authors: Lin Ai, Ziwei Gong, Harshsaiprasad Deshpande, Alexander Johnson, Emmy Phung, Ahmad Emami, Julia Hirschberg,
- Abstract要約: NovAScoreは文書レベルのノベルティを評価するための自動メトリクスである。
実験の結果,NovAScoreは人間のノベルティ判断と強く相関していることがわかった。
- 参考スコア(独自算出の注目度): 38.68593873522353
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid expansion of online content has intensified the issue of information redundancy, underscoring the need for solutions that can identify genuinely new information. Despite this challenge, the research community has seen a decline in focus on novelty detection, particularly with the rise of large language models (LLMs). Additionally, previous approaches have relied heavily on human annotation, which is time-consuming, costly, and particularly challenging when annotators must compare a target document against a vast number of historical documents. In this work, we introduce NovAScore (Novelty Evaluation in Atomicity Score), an automated metric for evaluating document-level novelty. NovAScore aggregates the novelty and salience scores of atomic information, providing high interpretability and a detailed analysis of a document's novelty. With its dynamic weight adjustment scheme, NovAScore offers enhanced flexibility and an additional dimension to assess both the novelty level and the importance of information within a document. Our experiments show that NovAScore strongly correlates with human judgments of novelty, achieving a 0.626 Point-Biserial correlation on the TAP-DLND 1.0 dataset and a 0.920 Pearson correlation on an internal human-annotated dataset.
- Abstract(参考訳): オンラインコンテンツの急速な拡大は情報冗長性の問題を強化し、真に新しい情報を識別できるソリューションの必要性を浮き彫りにした。
この課題にもかかわらず、研究コミュニティは、特に大きな言語モデル(LLM)の台頭により、新規性の検出に焦点を絞っている。
さらに、従来のアプローチは人間のアノテーションに大きく依存しており、これは時間がかかり、コストがかかり、特にアノテータがターゲット文書と大量の歴史的文書を比較する必要がある場合、特に困難である。
本研究では,文書レベルのノベルティを評価するための自動尺度であるNovAScore(Novelty Evaluation in Atomicity Score)を紹介する。
NovAScoreは、原子情報の新規性とサリエンススコアを集約し、高い解釈可能性と文書の新規性に関する詳細な分析を提供する。
NovAScoreの動的重量調整スキームでは、柔軟性が向上し、ドキュメント内の新規性レベルと情報の重要性の両方を評価するための追加の次元が提供される。
実験の結果,NovAScoreは新規性判断と強く相関し,TAP-DLND 1.0データセットの0.626点-双対相関,および内部の人間アノテーションデータセットの0.920ピアソン相関が得られた。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Importance-Aware Data Augmentation for Document-Level Neural Machine
Translation [51.74178767827934]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、一貫性と結合性の両方を持つ翻訳を生成することを目的としている。
長い入力長とトレーニングデータの可用性が限られているため、DocNMTはデータスパシティーの課題に直面していることが多い。
本稿では,隠れ状態のノルムとトレーニング勾配から推定したトークン重要度情報に基づいてトレーニングデータを拡張するDocNMTのための新しいIADAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-27T09:27:47Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - A modified model for topic detection from a corpus and a new metric
evaluating the understandability of topics [0.0]
新しいモデルは、ドキュメントクラスタリングなどのいくつかの変更を取り入れた組み込みトピックモデルの上に構築されている。
数値実験により、新しいモデルは文書の長さに関わらず好適に機能することが示唆された。
新しいメトリクスは、トピックコヒーレンスのような広く使われているメトリクスよりも効率的に計算でき、検出されたトピックの理解可能性に関する可変情報を提供する。
論文 参考訳(メタデータ) (2023-06-08T05:17:03Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - NEV-NCD: Negative Learning, Entropy, and Variance regularization based
novel action categories discovery [23.17093125627668]
新たなカテゴリディスカバリ(NCD)は、部分的にアノテートされたラベル空間からの学習を容易にする。
そこで我々は,新しい一段階共同最適化型NCD法,負学習,エントロピー,分散正規化NCDを提案する。
ビデオ行動認識のNCD応用におけるNEV-NCDの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-14T19:20:26Z) - Towards Integration of Discriminability and Robustness for
Document-Level Relation Extraction [41.51148745387936]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内の長距離コンテキスト依存推論に依存するエンティティペアの関係を予測する。
本研究では,DocRE問題に対する差別性とロバスト性の両方をよりよく統合することを目的としている。
エントロピーの最小化と教師付きコントラスト学習を革新的にカスタマイズする。
論文 参考訳(メタデータ) (2023-04-03T09:11:18Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - CNewSum: A Large-scale Chinese News Summarization Dataset with
Human-annotated Adequacy and Deducibility Level [15.969302324314516]
大規模中国語ニュース要約データセットCNewSumについて述べる。
304,307件の文書と人によるニュースフィードの要約で構成されている。
そのテストセットには、要約のための妥当性と再現性アノテーションが含まれている。
論文 参考訳(メタデータ) (2021-10-21T03:37:46Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。