論文の概要: LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs
- arxiv url: http://arxiv.org/abs/2409.02076v7
- Date: Thu, 23 Jan 2025 00:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:22.606956
- Title: LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs
- Title(参考訳): LongGenBench:Long Context LLMにおけるロングフォーム生成のベンチマーク
- Authors: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee,
- Abstract要約: LongGenBenchは、大規模言語モデルの長文生成能力を厳格に評価するために設計された、新しいベンチマークである。
4つの異なるシナリオ、3つの命令タイプ、2つの世代長(16Kおよび32Kトークン)でモデル性能を評価する。
この結果から,LongGenBench上での長文生成に苦戦するモデルが多数存在することが明らかとなった。
- 参考スコア(独自算出の注目度): 4.4965596747053
- License:
- Abstract: Current benchmarks like Needle-in-a-Haystack (NIAH), Ruler, and Needlebench focus on models' ability to understand long-context input sequences but fail to capture a critical dimension: the generation of high-quality long-form text. Applications such as design proposals, technical documentation, and creative writing rely on coherent, instruction-following outputs over extended sequences - a challenge that existing benchmarks do not adequately address. To fill this gap, we introduce LongGenBench, a novel benchmark designed to rigorously evaluate large language models' (LLMs) ability to generate long text while adhering to complex instructions. Through tasks requiring specific events or constraints within generated text, LongGenBench evaluates model performance across four distinct scenarios, three instruction types, and two generation-lengths (16K and 32K tokens). Our evaluation of ten state-of-the-art LLMs reveals that, despite strong results on Ruler, all models struggled with long text generation on LongGenBench, particularly as text length increased. This suggests that current LLMs are not yet equipped to meet the demands of real-world, long-form text generation.
- Abstract(参考訳): Needle-in-a-Haystack (NIAH) や Ruler 、 Needlebench といった現在のベンチマークでは、長いコンテキストの入力シーケンスを理解する能力に重点を置いている。
設計提案や技術ドキュメント、クリエイティブな記述といったアプリケーションは、拡張シーケンスよりも一貫性のある命令フォローアウトプットに依存しています。
このギャップを埋めるために,LongGenBenchを導入する。LongGenBenchは,複雑な命令に固執しながら長文を生成する,大規模言語モデルのLLM(LLM)能力を厳格に評価するために設計された,新しいベンチマークである。
生成されたテキスト内で特定のイベントや制約を必要とするタスクを通じて、LongGenBenchは4つの異なるシナリオ、3つの命令タイプ、2つの世代長(16Kトークンと32Kトークン)にわたるモデルパフォーマンスを評価する。
この結果から,LongGenBench上での長文生成に苦慮しているモデル,特にテキスト長が増加するにつれて,LongGenBench上での長文生成に苦慮しているモデルが存在することが明らかとなった。
これは、現在のLLMが現実世界の長文生成の要求を満たすようにまだ装備されていないことを示唆している。
関連論文リスト
- LongGenBench: Long-context Generation Benchmark [20.531098579781162]
ロングコンテキスト生成(Long-context generation)とは、コヒーレントで文脈的に正確なテキストを生成する言語モデルの能力である。
我々は、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを紹介した。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、一貫性のある1つの長文の回答を必要とする。
論文 参考訳(メタデータ) (2024-10-05T15:33:25Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - LongLaMP: A Benchmark for Personalized Long-form Text Generation [87.41296912519992]
長文言語モデルパーソナライゼーション(LongLaMP)ベンチマークを開発した。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-06-27T01:52:05Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z) - XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。
最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。
XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文 参考訳(メタデータ) (2024-04-08T12:29:07Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。