論文の概要: LIFEBench: Evaluating Length Instruction Following in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16234v1
- Date: Thu, 22 May 2025 05:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.049228
- Title: LIFEBench: Evaluating Length Instruction Following in Large Language Models
- Title(参考訳): LIFEBench:大規模言語モデルによる長さ指示の評価
- Authors: Wei Zhang, Zhenhong Zhou, Junfeng Fang, Rongwu Xu, Kun Wang, Yuanhe Zhang, Rui Wang, Ge Zhang, Xinfeng Li, Li Sun, Lingjuan Lyu, Yang Liu, Sen Su,
- Abstract要約: 本稿では,大規模言語モデルの長文指示に従う能力を評価するためにLIFEBenchを提案する。
LIFEBenchは英語と中国語の4つのタスクカテゴリにまたがる10,800のインスタンスで構成されている。
ほとんどのモデルでは、短い命令を適切に追従するが、一定のしきい値を超えると急激に劣化する。
- 参考スコア(独自算出の注目度): 41.83619872854282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models (LLMs) can solve PhD-level reasoning problems over long context inputs, they still struggle with a seemingly simpler task: following explicit length instructions-e.g., write a 10,000-word novel. Additionally, models often generate far too short outputs, terminate prematurely, or even refuse the request. Existing benchmarks focus primarily on evaluating generations quality, but often overlook whether the generations meet length constraints. To this end, we introduce Length Instruction Following Evaluation Benchmark (LIFEBench) to comprehensively evaluate LLMs' ability to follow length instructions across diverse tasks and a wide range of specified lengths. LIFEBench consists of 10,800 instances across 4 task categories in both English and Chinese, covering length constraints ranging from 16 to 8192 words. We evaluate 26 widely-used LLMs and find that most models reasonably follow short-length instructions but deteriorate sharply beyond a certain threshold. Surprisingly, almost all models fail to reach the vendor-claimed maximum output lengths in practice, as further confirmed by our evaluations extending up to 32K words. Even long-context LLMs, despite their extended input-output windows, counterintuitively fail to improve length-instructions following. Notably, Reasoning LLMs outperform even specialized long-text generation models, achieving state-of-the-art length following. Overall, LIFEBench uncovers fundamental limitations in current LLMs' length instructions following ability, offering critical insights for future progress.
- Abstract(参考訳): 大きな言語モデル(LLM)は、長い文脈入力に対してPhDレベルの推論問題を解くことができるが、それでも一見単純なタスクに苦慮している。
さらに、モデルはしばしば、あまりに短い出力を生成したり、早めに終了させたり、要求を拒否したりする。
既存のベンチマークは主に世代品質の評価に重点を置いているが、世代が長さの制約を満たすかどうかを見落としていることが多い。
そこで本研究では,LLMの多種多様なタスクと多種多様な特定長さの命令に従う能力を総合的に評価するために,Length Instruction following Evaluation Benchmark (LIFEBench)を提案する。
LIFEBenchは英語と中国語の4つのタスクカテゴリにまたがる10,800のインスタンスで構成され、16から8192語に及ぶ長さの制約をカバーしている。
広範に使用されている26個のLPMを評価した結果,ほとんどのモデルでは短い命令を適宜追従するが,一定のしきい値を超えて急激に劣化することがわかった。
驚いたことに、ほとんどのモデルがベンダーが定義した最大出力長に達していない。
長いコンテキストのLLMでさえ、拡張された入力出力ウィンドウにもかかわらず、反故意に続く長さ命令の改善に失敗する。
特に、LLMの推論は特定の長文生成モデルよりも優れており、それに続く最先端の長さを達成している。
LIFEBench は、現在の LLM の長さ命令の能力に対する基本的な制限を明らかにし、今後の進歩に対する重要な洞察を提供する。
関連論文リスト
- LongIns: A Challenging Long-context Instruction-based Exam for LLMs [44.51209510772957]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Long-context LLMs Struggle with Long In-context Learning [39.84597097614607]
28から174のクラスを持つ6つのデータセットと2Kから50Kトークンの入力長を用いて、極端ラベル分類における長い文脈内学習のベンチマークを導入する。
15個の長文LLMを評価した結果,ラベル空間が小さく,デモンストレーションが短い,難易度が低い分類タスクでうまく機能していることが判明した。
さらなる分析により、後述のラベルに対するバイアスと、複数の情報に対する推論の改善の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T15:59:11Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
我々は,大規模言語モデル(LLM)を複雑で拡張された物語で評価するためのベンチマークであるNovellQAを紹介する。
NovelQAは、複雑さ、長さ、物語のコヒーレンスをユニークなブレンドとして提供し、深いテキスト理解を評価するのに理想的なツールである。
ノベルQAにおける長文LLMの評価は,長文LLMの長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文長文の長文長文長文長文長文の長文
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。