論文の概要: LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation
- arxiv url: http://arxiv.org/abs/2501.05414v2
- Date: Mon, 21 Apr 2025 13:50:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 21:38:34.579855
- Title: LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation
- Title(参考訳): LongProc: 長期手続き生成のための長期言語モデルのベンチマーク
- Authors: Xi Ye, Fangcong Yin, Yinghui He, Joie Zhang, Howard Yen, Tianyu Gao, Greg Durrett, Danqi Chen,
- Abstract要約: LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
- 参考スコア(独自算出の注目度): 74.89981179257194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks for evaluating long-context language models (LCLMs) primarily focus on long-context recall, requiring models to produce short responses based on a few critical snippets while processing thousands of irrelevant tokens. We introduce LongProc (Long Procedural Generation), a new benchmark that requires both the integration of highly dispersed information and long-form generation. LongProc consists of six diverse procedural generation tasks, such as extracting structured information from HTML pages into a TSV format and executing complex search procedures to create travel plans. These tasks challenge LCLMs by testing their ability to follow detailed procedural instructions, synthesize and reason over dispersed information, and generate structured, long-form outputs (up to 8K tokens). Furthermore, as these tasks adhere to deterministic procedures and yield structured outputs, they enable reliable rule-based evaluation. We evaluated 23 LCLMs, including instruction-tuned models and recent reasoning models, on LongProc at three difficulty levels, with the maximum number of output tokens set at 500, 2K, and 8K. Notably, while all tested models claim a context window size above 32K tokens, open-weight models typically falter on 2K-token tasks, and closed-source models like GPT-4o show significant degradation on 8K-token tasks. Reasoning models achieve stronger overall performance in long-form generation, benefiting from long CoT training. Further analysis reveals that LCLMs struggle to maintain long-range coherence in long-form generations. These findings highlight critical limitations in current LCLMs and suggest substantial room for improvement. Data and code available at: https://princeton-pli.github.io/LongProc.
- Abstract(参考訳): LCLM(Long-context Language Model)の評価のための既存のベンチマークは、主に長期コンテキストリコールに焦点を当てており、数千の無関係トークンを処理しながら、いくつかの重要なスニペットに基づいて短い応答を生成する必要がある。
高分散情報の統合と長文生成の両方を必要とする新しいベンチマークであるLongProc(Long Procedural Generation)を紹介する。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
これらのタスクはLCLMに挑戦し、詳細な手続き命令に従い、分散された情報を合成し、推論し、構造化された長期出力(最大8Kトークン)を生成する能力をテストする。
さらに、これらのタスクは決定論的手続きに準拠し、構造化された出力を出力するので、信頼性の高いルールベースの評価を可能にする。
我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
特に、全てのテストされたモデルは32Kトークン以上のコンテキストウィンドウサイズを主張するが、オープンウェイトモデルは通常2Kトークンタスクに干渉し、GPT-4oのようなクローズドソースモデルは8Kトークンタスクに大きな劣化を示す。
推論モデルは、長いCoTトレーニングの恩恵を受けながら、ロングフォーム世代でより優れた全体的なパフォーマンスを達成する。
さらに解析したところ、LCLMは長距離コヒーレンスを維持するのに苦労していることが明らかとなった。
これらの知見は,現在のLCLMの限界を浮き彫りにし,改善の余地があることを示唆している。
データとコードは、https://princeton-pli.github.io/LongProc.comで入手できる。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
LongGenBenchは、大規模言語モデルの長文生成能力を厳格に評価するために設計された、新しいベンチマークである。
4つの異なるシナリオ、3つの命令タイプ、2つの世代長(16Kおよび32Kトークン)でモデル性能を評価する。
この結果から,LongGenBench上での長文生成に苦戦するモデルが多数存在することが明らかとなった。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
RAGを用いた長文LLMの性能は,多数のチャンクを検索した場合に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。