論文の概要: On the Evaluation of Machine-Generated Reports
- arxiv url: http://arxiv.org/abs/2405.00982v2
- Date: Fri, 10 May 2024 03:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:45:54.543349
- Title: On the Evaluation of Machine-Generated Reports
- Title(参考訳): 機械による報告の評価について
- Authors: James Mayfield, Eugene Yang, Dawn Lawrie, Sean MacAvaney, Paul McNamee, Douglas W. Oard, Luca Soldaini, Ian Soboroff, Orion Weller, Efsun Kayi, Kate Sanders, Marc Mason, Noah Hibbler,
- Abstract要約: 大きな言語モデル(LLM)は、情報ニーズを満たす新しい方法を可能にしました。
これらの品質の報告は、ユーザの複雑な、ニュアンスのある、あるいは多面的な情報要求を満たすために必要である。
本稿では、自動レポート生成のためのビジョンと、そのようなレポートを評価可能なフレキシブルなフレームワークについて述べる。
- 参考スコア(独自算出の注目度): 33.829781915978835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have enabled new ways to satisfy information needs. Although great strides have been made in applying them to settings like document ranking and short-form text generation, they still struggle to compose complete, accurate, and verifiable long-form reports. Reports with these qualities are necessary to satisfy the complex, nuanced, or multi-faceted information needs of users. In this perspective paper, we draw together opinions from industry and academia, and from a variety of related research areas, to present our vision for automatic report generation, and -- critically -- a flexible framework by which such reports can be evaluated. In contrast with other summarization tasks, automatic report generation starts with a detailed description of an information need, stating the necessary background, requirements, and scope of the report. Further, the generated reports should be complete, accurate, and verifiable. These qualities, which are desirable -- if not required -- in many analytic report-writing settings, require rethinking how to build and evaluate systems that exhibit these qualities. To foster new efforts in building these systems, we present an evaluation framework that draws on ideas found in various evaluations. To test completeness and accuracy, the framework uses nuggets of information, expressed as questions and answers, that need to be part of any high-quality generated report. Additionally, evaluation of citations that map claims made in the report to their source documents ensures verifiability.
- Abstract(参考訳): 大きな言語モデル(LLM)は、情報ニーズを満たす新しい方法を可能にしました。
文書のランク付けやショートフォームのテキスト生成といった設定にそれらを適用しようとする動きは大きいが、それでも完全で正確で検証可能なロングフォームのレポートを作成するのに苦労している。
これらの品質の報告は、ユーザの複雑な、ニュアンスのある、あるいは多面的な情報要求を満たすために必要である。
本論では, 産業・学界, 各種研究分野から, 自動レポート生成の展望, そして, 批判的に, このようなレポートを評価可能なフレキシブルな枠組みについて考察する。
他の要約タスクとは対照的に、自動レポート生成は、必要なバックグラウンド、要求、およびレポートのスコープを記述して、必要な情報の詳細記述から始まる。
さらに、生成されたレポートは完全で、正確で、検証可能であるべきです。
これらの品質は(必要でないとしても)多くの分析レポートの書き起こし設定において望ましいものであり、これらの品質を示すシステムを構築し評価する方法を再考する必要がある。
これらのシステム構築における新たな取り組みを促進するために,様々な評価で見出されたアイデアを取り入れた評価フレームワークを提案する。
完全性と正確性をテストするため、このフレームワークは、高品質なレポートの一部である必要がある質問や回答として表現された大量の情報を使用する。
さらに、レポート内のクレームをソースドキュメントにマッピングする引用の評価により、妥当性が保証される。
関連論文リスト
- STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。
最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。
本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文 参考訳(メタデータ) (2024-03-22T17:06:05Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Financial Report Chunking for Effective Retrieval Augmented Generation [2.6680382112425374]
チャンキング情報は検索拡張生成(RAG)における重要なステップである
現在の研究は主に段落レベルのチャンキングに焦点を当てている。
本稿では,文書の構造的要素によって,単に段落レベルのチャンクを超えて文書をチャンクし,文書をチャンクするアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:35:42Z) - Knowledge-Centric Templatic Views of Documents [2.654058995940072]
著者はしばしば、スライドデッキ、ニュースレター、レポート、ポスターなど、様々な文書形式でアイデアを共有している。
文書生成装置の品質測定に適応できる新しい統一評価フレームワークを提案する。
人間の評価を行い,提案手法を用いて作成した文書の82%を利用者が好んでいることを示す。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Long Text and Multi-Table Summarization: Dataset and Method [20.90939310713561]
FINDSumは3,794社から21,125件の年次レポートに基づいて構築されている。
それぞれの会社の運営成果と流動性を要約する2つのサブセットがある。
生成した要約における数値情報の利用状況を評価するための評価指標のセットを提案する。
論文 参考訳(メタデータ) (2023-02-08T00:46:55Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - RetrievalSum: A Retrieval Enhanced Framework for Abstractive
Summarization [25.434558112121778]
本稿では,高密度Retriever と Summarizer を組み合わせた新しい検索強化抽象要約フレームワークを提案する。
提案手法は,複数のドメインにまたがる広範囲な要約データセットと,BERTとBARTの2つのバックボーンモデルで検証する。
その結果, ROUGE-1 スコアの1.384.66 倍の精度向上が得られた。
論文 参考訳(メタデータ) (2021-09-16T12:52:48Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。