論文の概要: SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems
- arxiv url: http://arxiv.org/abs/2508.11310v1
- Date: Fri, 15 Aug 2025 08:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.799127
- Title: SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems
- Title(参考訳): SGSimEval: 自動サーベイ生成システムのための総合的多面的類似性向上ベンチマーク
- Authors: Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen,
- Abstract要約: SGSimEvalは、Survey Generation with similarity-Enhanced Evaluationの包括的なベンチマークである。
我々は、人間に固有の品質と類似性の両方を強調する人間の嗜好指標を導入する。
実験の結果,現在のASGシステムはアウトライン生成において人間に比較可能な優位性を示すことがわかった。
- 参考スコア(独自算出の注目度): 26.888698710786507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing interest in automatic survey generation (ASG), a task that traditionally required considerable time and effort, has been spurred by recent advances in large language models (LLMs). With advancements in retrieval-augmented generation (RAG) and the rising popularity of multi-agent systems (MASs), synthesizing academic surveys using LLMs has become a viable approach, thereby elevating the need for robust evaluation methods in this domain. However, existing evaluation methods suffer from several limitations, including biased metrics, a lack of human preference, and an over-reliance on LLMs-as-judges. To address these challenges, we propose SGSimEval, a comprehensive benchmark for Survey Generation with Similarity-Enhanced Evaluation that evaluates automatic survey generation systems by integrating assessments of the outline, content, and references, and also combines LLM-based scoring with quantitative metrics to provide a multifaceted evaluation framework. In SGSimEval, we also introduce human preference metrics that emphasize both inherent quality and similarity to humans. Extensive experiments reveal that current ASG systems demonstrate human-comparable superiority in outline generation, while showing significant room for improvement in content and reference generation, and our evaluation metrics maintain strong consistency with human assessments.
- Abstract(参考訳): 従来かなりの時間と労力を要するタスクである自動サーベイ生成(ASG)への関心が高まっており、近年の大規模言語モデル(LLM)の進歩に拍車を掛けている。
検索強化世代(RAG)の進展とマルチエージェントシステム(MAS)の普及に伴い,LSMを用いた学術調査の総合化が実現可能なアプローチとなり,この領域におけるロバストな評価手法の必要性が高まっている。
しかし、既存の評価手法には、偏りのあるメトリクス、人間の好みの欠如、LSMs-as-judgesへの過度な依存など、いくつかの制限がある。
これらの課題に対処するため,SGSimEvalを提案する。SGSimEvalは,アウトライン,コンテンツ,参照のアセスメントを統合することで,自動サーベイ生成システムの評価を行い,LCMに基づくスコアと定量的メトリクスを組み合わせることで,多面的評価フレームワークを提供する。
SGSimEvalでは、人間に固有の品質と類似性の両方を強調する人間の嗜好指標も導入する。
大規模な実験により,現在のASGシステムはアウトライン生成において人間に相応しい優位性を示す一方で,コンテンツや参照生成の改善の余地も有意であり,評価基準は人間の評価と強い整合性を維持していることが明らかとなった。
関連論文リスト
- Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。
RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。
本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文 参考訳(メタデータ) (2025-04-28T08:22:19Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - IdeaBench: Benchmarking Large Language Models for Research Idea Generation [19.66218274796796]
大規模言語モデル(LLM)は、人々が人工知能(AI)システムと対話する方法を変革した。
包括的データセットと評価フレームワークを含むベンチマークシステムであるIdeanBenchを提案する。
私たちのデータセットは、さまざまな影響力のある論文のタイトルと要約と、参照された作品で構成されています。
まず、GPT-4oを用いて、新規性や実現可能性などのユーザ固有の品質指標に基づいて、アイデアをランク付けし、スケーラブルなパーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-10-31T17:04:59Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Learning Evaluation Models from Large Language Models for Sequence Generation [61.8421748792555]
本稿では,大規模言語モデルを用いた3段階評価モデルトレーニング手法を提案する。
SummEval ベンチマークによる実験結果から,CSEM は人間ラベルデータなしで評価モデルを効果的に訓練できることが示された。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。