論文の概要: LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability
- arxiv url: http://arxiv.org/abs/2510.24345v1
- Date: Tue, 28 Oct 2025 12:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.106141
- Title: LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability
- Title(参考訳): LongWeave: リアルタイムの妥当性と妥当性を橋渡しする,長期世代のベンチマーク
- Authors: Zikai Xiao, Fei Huang, Jianhong Tu, Jianhui Wei, Wen Ma, Yuxuan Zhou, Jian Wu, Bowen Yu, Zuozhu Liu, Junyang Lin,
- Abstract要約: textbfLongWeaveを導入し、Constraint-Verifier Evaluation(CoV-Eval)による実世界と検証のバランスをとる。
LongWeaveは7つの異なるタスクに対して、カスタマイズ可能な入出力長(最大64K/8Kトークン)をサポートする。
23大言語モデルの評価は、実世界の複雑さと出力長の増加に伴い、最先端モデルでさえ、長文生成において重大な課題に直面していることを示している。
- 参考スコア(独自算出の注目度): 60.451734326001564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Generating long, informative, and factual outputs remains a major challenge for Large Language Models (LLMs). Existing benchmarks for long-form generation typically assess real-world queries with hard-to-verify metrics or use synthetic setups that ease evaluation but overlook real-world intricacies. In this paper, we introduce \textbf{LongWeave}, which balances real-world and verifiable assessment with Constraint-Verifier Evaluation (CoV-Eval). CoV-Eval constructs tasks by first defining verifiable targets within real-world scenarios, then systematically generating corresponding queries, textual materials, and constraints based on these targets. This ensures that tasks are both realistic and objectively assessable, enabling rigorous assessment of model capabilities in meeting complex real-world constraints. LongWeave supports customizable input/output lengths (up to 64K/8K tokens) across seven distinct tasks. Evaluation on 23 LLMs shows that even state-of-the-art models encounter significant challenges in long-form generation as real-world complexity and output length increase.
- Abstract(参考訳): 長い、情報的、事実的なアウトプットを生成することは、Large Language Models (LLMs) にとって大きな課題である。
既存のロングフォーム生成用のベンチマークは、通常、検証の難しいメトリクスで現実世界のクエリを評価したり、評価を簡単にする合成セットアップを使用して、現実世界の複雑さを見落としたりする。
本稿では,制約検証評価(CoV-Eval)と実世界のバランスと検証可能な評価を両立させる「textbf{LongWeave}」を紹介する。
CoV-Evalは、まず実世界のシナリオ内で検証可能なターゲットを定義し、次にこれらのターゲットに基づいて対応するクエリ、テキスト素材、制約を体系的に生成することでタスクを構築する。
これにより、タスクは現実的かつ客観的に評価可能であり、複雑な実世界の制約を満たすための厳密なモデル能力の評価を可能にする。
LongWeaveは7つの異なるタスクに対して、カスタマイズ可能な入出力長(最大64K/8Kトークン)をサポートする。
実世界の複雑さと出力長の増加に伴い、23のLLMの評価結果から、最先端モデルでさえ、長文生成において重大な課題に直面することが示されている。
関連論文リスト
- LooGLE v2: Are LLMs Ready for Real World Long Dependency Challenges? [35.43518917055024]
LooGLE v2は、大規模言語モデルの現実世界のアプリケーションやシナリオにおける長期コンテキスト能力を評価するために設計された、新しいベンチマークである。
私たちのベンチマークは、16kから2Mのトークンから、法律、ファイナンス、ゲーム、コードの領域まで、自動的に収集された現実世界の長文で構成されています。
評価結果から,ベストパフォーマンスモデルでさえ,ベンチマークの総合スコアは59.2%に過ぎなかった。
論文 参考訳(メタデータ) (2025-10-26T06:14:19Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。