論文の概要: ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
- arxiv url: http://arxiv.org/abs/2506.01241v1
- Date: Mon, 02 Jun 2025 01:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.712294
- Title: ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists
- Title(参考訳): ExpertLongBench: 構造化チェックリストによるエキスパートレベル長期タスクの言語モデルベンチマーク
- Authors: Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang,
- Abstract要約: 本稿では、9つのドメインから11のタスクを含むエキスパートレベルのベンチマークであるExpertLongBenchを紹介する。
各タスクには、ドメインの専門家が設計または検証したルーリックが含まれており、タスク要求を特定し、出力評価をガイドする。
ベンチマークで長大モデル出力の正確な評価を支援する評価フレームワークであるCLEARを提案する。
- 参考スコア(独自算出の注目度): 9.975790135358809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces ExpertLongBench, an expert-level benchmark containing 11 tasks from 9 domains that reflect realistic expert workflows and applications. Beyond question answering, the application-driven tasks in ExpertLongBench demand long-form outputs that can exceed 5,000 tokens and strict adherence to domain-specific requirements. Notably, each task in ExpertLongBench includes a rubric, designed or validated by domain experts, to specify task requirements and guide output evaluation. Furthermore, we propose CLEAR, an evaluation framework that supports accurate evaluation of long-form model outputs in our benchmark. To achieve fine-grained, expert-aligned evaluation, CLEAR derives checklists from both model outputs and references by extracting information corresponding to items in the task-specific rubric. Checklist items for model outputs are then compared with corresponding items for reference outputs to assess their correctness, enabling grounded evaluation. We benchmark 11 large language models (LLMs) and analyze components in CLEAR, showing that (1) existing LLMs, with the top performer achieving only a 26.8% F1 score, require significant improvement for expert-level tasks; (2) models can generate content corresponding to the required aspects, though often not accurately; and (3) accurate checklist extraction and comparison in CLEAR can be achieved by open-weight models for more scalable and low-cost usage.
- Abstract(参考訳): 本稿では,エキスパートレベルのベンチマークであるExpertLongBenchを紹介する。
質問に答える以外に、ExpertLongBenchのアプリケーション駆動タスクは、5,000トークンを超える長文の出力と、ドメイン固有の要求への厳格な準拠を要求する。
注目すべきなのは、ExpertLongBenchの各タスクには、ドメインの専門家が設計または検証したルーブリックが含まれており、タスク要求を特定し、出力評価をガイドする。
さらに,ベンチマークの長文モデル出力の正確な評価を支援する評価フレームワークであるCLEARを提案する。
CLEARは、きめ細かい専門家による評価を実現するため、タスク固有のルーリック内の項目に対応する情報を抽出することにより、モデル出力と参照の両方からチェックリストを導出する。
モデルアウトプットのチェックリスト項目は、参照アウトプットの対応する項目と比較され、その正確性を評価し、グラウンドド評価を可能にする。
我々は11の大規模言語モデル(LLM)をベンチマークし、CLEARのコンポーネントを分析し、(1)トップパフォーマーが26.8%のF1スコアしか達成していない既存のLCMは、専門家レベルのタスクに対して大幅な改善を必要とすること、(2)モデルは要求される側面に対応するコンテンツを生成することができるが、しばしば正確ではないこと、(3)CLEARの正確なチェックリスト抽出と比較は、よりスケーラブルで低コストな使用が可能なオープンウェイトモデルによって達成可能であること、を示す。
関連論文リスト
- AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - DetailMaster: Can Your Text-to-Image Model Handle Long Prompts? [30.739878622982847]
DetailMasterはテキスト・ツー・イメージ(T2I)モデルを評価するために設計された最初の総合ベンチマークである。
このベンチマークは、専門家アノテータによって高品質な検証がなされた、平均284.89トークンの長大かつ詳細なプロンプトで構成されている。
7つの汎用T2Iモデルと5つの長周期最適化T2Iモデルの評価は、重要な性能限界を示す。
論文 参考訳(メタデータ) (2025-05-22T17:11:27Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文 参考訳(メタデータ) (2025-01-09T18:16:55Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスを確実に予測できない。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクが完全コンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models [45.892014195594314]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。