論文の概要: CovScore: Evaluation of Multi-Document Abstractive Title Set Generation
- arxiv url: http://arxiv.org/abs/2407.17390v1
- Date: Wed, 24 Jul 2024 16:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 13:15:22.809106
- Title: CovScore: Evaluation of Multi-Document Abstractive Title Set Generation
- Title(参考訳): CovScore:多文書抽象タイトルセット生成の評価
- Authors: Itamar Trainin, Omri Abend,
- Abstract要約: CovScoreは、テーマのタイトルセットを評価するための自動参照レス方法論である。
評価の異なる側面に沿って,品質を5つの主要な指標に分解する手法を提案する。
- 参考スコア(独自算出の注目度): 16.516381474175986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces CovScore, an automatic reference-less methodology for evaluating thematic title sets, extracted from a corpus of documents. While such extraction methods are widely used, evaluating their effectiveness remains an open question. Moreover, some existing practices heavily rely on slow and laborious human annotation procedures. Inspired by recently introduced LLM-based judge methods, we propose a novel methodology that decomposes quality into five main metrics along different aspects of evaluation. This framing simplifies and expedites the manual evaluation process and enables automatic and independent LLM-based evaluation. As a test case, we apply our approach to a corpus of Holocaust survivor testimonies, motivated both by its relevance to title set extraction and by the moral significance of this pursuit. We validate the methodology by experimenting with naturalistic and synthetic title set generation systems and compare their performance with the methodology.
- Abstract(参考訳): 本稿では,文書コーパスから抽出したテーマタイトルセットを自動参照レスで評価する手法であるCovScoreを紹介する。
このような抽出法は広く用いられているが、その有効性を評価することは未解決の問題である。
さらに、既存のプラクティスの中には、遅くて退屈な人間のアノテーション手順に大きく依存しているものもある。
最近導入されたLCMに基づく判断法に着想を得て,評価の異なる側面に沿って,品質を5つの主要な指標に分解する手法を提案する。
このフレーミングは、手動による評価プロセスを簡素化し、簡易化し、自動かつ独立したLCMベースの評価を可能にする。
テストケースとして,ホロコースト生存者の証言のコーパスにアプローチを適用し,タイトルセット抽出との関連と,この追求の道徳的意義を両立させることで動機づけた。
本研究では,本手法を自然主義的および総合的なタイトルセット生成システムを用いて検証し,その性能を方法論と比較する。
関連論文リスト
- A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Knowledge-Centric Templatic Views of Documents [2.8122829028152787]
著者はしばしば、異なる文書やフォーマットで同じ基礎知識について考えを組み立てる。
ドキュメント生成における以前の作業は、一般的に、各個別のフォーマットの作成をタスクが異なるものとみなしていた。
このアプローチは、研究とアプリケーションの両方の観点からAIが支援するコンテンツ作成の進歩に最適である。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Document Provenance and Authentication through Authorship Classification [5.2545206693029884]
本稿では,単一文書と複数文書の分類のためのアンサンブルベースのテキスト処理フレームワークを提案する。
提案するフレームワークには,最先端のテキスト分類アルゴリズムがいくつか組み込まれている。
フレームワークは大規模なベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2023-03-02T12:26:03Z) - Comparing Methods for Extractive Summarization of Call Centre Dialogue [77.34726150561087]
そこで本稿では,これらの手法を用いて呼の要約を生成し,客観的に評価することにより,実験的な比較を行った。
TopicSum と Lead-N は他の要約法よりも優れており,BERTSum は主観的評価と客観的評価の両方で比較的低いスコアを得た。
論文 参考訳(メタデータ) (2022-09-06T13:16:02Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Automating Document Classification with Distant Supervision to Increase
the Efficiency of Systematic Reviews [18.33687903724145]
体系的なレビューは高価で、時間的需要があり、労働集約的です。
文書のレビュー作業を大幅に削減するための自動文書分類アプローチを提案します。
論文 参考訳(メタデータ) (2020-12-09T22:45:40Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。