Fugu-MT 論文翻訳(概要): Less is More for Long Document Summary Evaluation by LLMs

論文の概要: Less is More for Long Document Summary Evaluation by LLMs

arxiv url: http://arxiv.org/abs/2309.07382v2
Date: Thu, 18 Jan 2024 18:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 20:09:31.984941
Title: Less is More for Long Document Summary Evaluation by LLMs
Title（参考訳）: LLMによる長期文書概要評価について
Authors: Yunshu Wu, Hayate Iso, Pouya Pezeshkpour, Nikita Bhutani, Estevam Hruschka
Abstract要約: 本稿では,長い資料からキー文を抽出し,LCMをプロンプトすることで要約を評価する,新しい手法であるExtract-then-Evaluateを提案する。その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価と高い相関性を示すことがわかった。
参考スコア（独自算出の注目度）: 8.329113698912572
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown promising performance in summary evaluation tasks, yet they face challenges such as high computational costs and the Lost-in-the-Middle problem where important information in the middle of long documents is often overlooked. To address these issues, this paper introduces a novel approach, Extract-then-Evaluate, which involves extracting key sentences from a long source document and then evaluating the summary by prompting LLMs. The results reveal that the proposed method not only significantly reduces evaluation costs but also exhibits a higher correlation with human evaluations. Furthermore, we provide practical recommendations for optimal document length and sentence extraction methods, contributing to the development of cost-effective yet more accurate methods for LLM-based text generation evaluation.
Abstract（参考訳）: 大規模言語モデル(llm)は要約評価タスクにおいて有望な性能を示しているが、高い計算コストや長い文書の中間で重要な情報が見過ごされるような中途半端な問題などの課題に直面している。これらの課題に対処するために,長い資料からキー文を抽出し,LLMを誘導して要約を評価する新しい手法であるExtract-then-Evaluateを提案する。その結果,提案手法は評価コストを大幅に削減するだけでなく,人的評価との相関も高いことがわかった。さらに,最適な文書長と文抽出手法の実践的提案を行い,LCMによるテキスト生成評価のためのコスト効率が高く精度の高い手法の開発に寄与する。

関連論文リスト

On the Use of a Large Language Model to Support the Conduction of a Systematic Mapping Study: A Brief Report from a Practitioner's View [2.0199251985015434]
大規模言語モデル(LLM)は大量のテキストデータとエビデンス合成のための支援方法を扱うことができる。本稿では,LLMを用いた系統地図研究の導電性に関する経験報告を報告する。
論文参考訳（メタデータ） (2026-02-09T15:57:30Z)
Comprehensiveness Metrics for Automatic Evaluation of Factual Recall in Text Generation [46.697788643450785]
大規模言語モデル(LLM)は、不完全または選択的に鍵情報を省略する出力を生成する。センシティブなドメインでは、そのような欠落は、事実的不正確さによって引き起こされるものと同等の重大な害をもたらす可能性がある。
論文参考訳（メタデータ） (2025-10-09T08:22:24Z)
ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking [8.244386008877441]
本稿では,SLM ベースの文書更新のための新しい2段階トレーニング手法 ProRank を提案する。まず、強化学習GRPOを用いてSLMを操り、タスクプロンプトを理解するプロンプトウォームアップステージを提案する。そこで我々は,精巧なスコア学習段階を連続的に微調整し,付加層を導入することなく品質向上を図る。
論文参考訳（メタデータ） (2025-06-04T02:00:44Z)
RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。 RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文参考訳（メタデータ） (2024-10-07T16:50:47Z)
Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。 EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文参考訳（メタデータ） (2024-08-28T13:52:19Z)
$T^5Score$: A Methodology for Automatically Assessing the Quality of LLM Generated Multi-Document Topic Sets [16.516381474175986]
本稿では,トピックの品質を定量的な側面に分解する評価手法である$T5Scoreを紹介する。このフレーミングは、強力なアノテーション間合意スコアをもたらす便利な、手動または自動的な評価手順を可能にする。
論文参考訳（メタデータ） (2024-07-24T16:14:15Z)
Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews [7.355182982314533]
文献濾過における効率と精度を高めるため,Large Language Models (LLMs) の評価を行った。オープンソースのツールLLMSurverは、文学的なフィルタリングにLLMを使用するためのビジュアルインターフェースを提供する。最近のLLMモデルは、フィルタリング時間を数週間から数分に短縮できることを示している。
論文参考訳（メタデータ） (2024-07-15T12:13:53Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。 LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。 LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文参考訳（メタデータ） (2023-11-15T19:52:11Z)
ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning [7.457517083017178]
大規模言語モデル(LLM)は、人間やAIが生成するテキストの評価に使用される。実用性にもかかわらず、LSMは異なる障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。ここでは、大規模な言語モデルを理解するための体系的なアプローチであるALLUREを紹介します。
論文参考訳（メタデータ） (2023-09-24T17:15:58Z)
Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文参考訳（メタデータ） (2023-09-18T08:13:01Z)
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents [78.27865456183397]
長い文書に対する推論を改善するためのフレームワークであるPEARLを提案する。 PEARLの各ステージは、最小限の人間の入力でゼロショットまたは少数ショットのプロンプトによって実装される。 PEARLをQuALITYデータセットの挑戦的なサブセットで評価し、長い物語テキストに対して複雑な推論を必要とする質問を含む。
論文参考訳（メタデータ） (2023-05-23T23:06:04Z)
Improving Language Models via Plug-and-Play Retrieval Feedback [42.786225163763376]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを示す。彼らはしばしば誤った情報や幻覚的な情報を生成し、現実のシナリオにおける現実的な適用を妨げます。 ReFeedは,プラグイン・アンド・プレイフレームワークにおける自動検索フィードバックを提供することにより,LLMの強化を目的とした新しいパイプラインである。
論文参考訳（メタデータ） (2023-05-23T12:29:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。