論文の概要: An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.04534v1
- Date: Sun, 06 Apr 2025 16:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:32.590265
- Title: An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models
- Title(参考訳): テキスト要約の実証的比較:大規模言語モデルの多次元評価
- Authors: Anantharaman Janakiraman, Behnaz Ghoraani,
- Abstract要約: 本研究は17大言語モデル(OpenAI, Google, Anthropic, オープンソース)の要約性能を評価する。
事実整合性、意味的類似性、語彙重なり、人間に似た品質の指標を用いて、7つの多様なデータセットのモデルを評価した。
- 参考スコア(独自算出の注目度): 2.1945750784330067
- License:
- Abstract: Text summarization is crucial for mitigating information overload across domains like journalism, medicine, and business. This research evaluates summarization performance across 17 large language models (OpenAI, Google, Anthropic, open-source) using a novel multi-dimensional framework. We assessed models on seven diverse datasets (BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum) at three output lengths (50, 100, 150 tokens) using metrics for factual consistency, semantic similarity, lexical overlap, and human-like quality, while also considering efficiency factors. Our findings reveal significant performance differences, with specific models excelling in factual accuracy (deepseek-v3), human-like quality (claude-3-5-sonnet), and processing efficiency/cost-effectiveness (gemini-1.5-flash, gemini-2.0-flash). Performance varies dramatically by dataset, with models struggling on technical domains but performing well on conversational content. We identified a critical tension between factual consistency (best at 50 tokens) and perceived quality (best at 150 tokens). Our analysis provides evidence-based recommendations for different use cases, from high-stakes applications requiring factual accuracy to resource-constrained environments needing efficient processing. This comprehensive approach enhances evaluation methodology by integrating quality metrics with operational considerations, incorporating trade-offs between accuracy, efficiency, and cost-effectiveness to guide model selection for specific applications.
- Abstract(参考訳): テキストの要約は、ジャーナリズム、医療、ビジネスといった分野にまたがる情報の過負荷を軽減するために不可欠である。
本研究では,新しい多次元フレームワークを用いて17大言語モデル(OpenAI, Google, Anthropic, Open-source)の要約性能を評価する。
我々は,実数整合性,意味的類似性,語彙的重複,人間に近い品質の指標を用いて,7つの多様なデータセット(BigPatent, BillSum, CNN/DailyMail, PubMed, SAMSum, WikiHow, XSum)を3つの出力長(50, 100, 150トークン)で評価した。
以上の結果から,実際の精度(deepseek-v3),人的品質(claude-3-5-sonnet),処理効率・費用対効果(gemini-1.5-flash, gemini-2.0-flash)に優れたモデルが得られた。
パフォーマンスはデータセットによって劇的に変化し、モデルは技術的なドメインで苦労するが、会話の内容ではうまく機能する。
事実整合性(50トークン以上)と品質(150トークン以上)の間には,重大な緊張関係が認められた。
本分析は,実測精度の高いアプリケーションから,効率的な処理を必要とする資源制約のある環境まで,さまざまなユースケースに対するエビデンスベースのレコメンデーションを提供する。
この包括的なアプローチは、特定のアプリケーションのモデル選択をガイドするために、精度、効率、コスト効率のトレードオフを取り入れ、運用上の考慮事項と品質指標を統合することで評価方法論を強化する。
関連論文リスト
- Human Re-ID Meets LVLMs: What can we expect? [14.370360290704197]
人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
論文 参考訳(メタデータ) (2025-01-30T19:00:40Z) - Comparative Insights from 12 Machine Learning Models in Extracting Economic Ideology from Political Text [0.0]
本研究では、経済イデオロギーの検出において、12の機械学習モデルとモデルバリエーションの能力を体系的に評価する。
この分析は、粒度および集合レベルでのいくつかの生成、微調整、ゼロショットモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-01-16T18:06:22Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - What are the Essential Factors in Crafting Effective Long Context Multi-Hop Instruction Datasets? Insights and Best Practices [91.71951459594074]
拡張コンテキストウィンドウを持つLong Language Model (LLM) は、情報抽出、質問応答、複雑な計画シナリオなどのタスクを大幅に改善した。
既存のメソッドは通常、Self-Instructフレームワークを使用して、長いコンテキスト能力を改善するために命令チューニングデータを生成する。
本稿では,品質検証エージェント,シングルホップ質問生成エージェント,複数質問サンプリング戦略,マルチホップ質問マーガーエージェントを組み込んだマルチエージェント対話型マルチホップ生成フレームワークを提案する。
以上の結果から,我々の合成高品位長文指導データにより,多量の人体で訓練したモデルよりも,モデル性能が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-03T13:30:00Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Process Extraction from Text: Benchmarking the State of the Art and
Paving the Way for Future Challenges [18.485565445940175]
既存のソリューションが、モデル抽出問題をどの程度解決できるか、どのように互いに比較できるかは、不明である。
定性的側面と定量的側面の両方を網羅した,モデル抽出のための10の最先端手法を体系的に比較した。
その結果,パフォーマンス面では3つの異なるツール群が示され,優れたスコアと重大な制限が得られなかった。
論文 参考訳(メタデータ) (2021-10-07T19:12:24Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。