論文の概要: LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation
- arxiv url: http://arxiv.org/abs/2501.05414v1
- Date: Thu, 09 Jan 2025 18:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:31.544941
- Title: LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation
- Title(参考訳): LongProc: 長期手続き生成のための長期言語モデルのベンチマーク
- Authors: Xi Ye, Fangcong Yin, Yinghui He, Joie Zhang, Howard Yen, Tianyu Gao, Greg Durrett, Danqi Chen,
- Abstract要約: LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
我々はLongProc上の17個のLCLMを3つの難易度で評価し、最大出力トークン数が500, 2K, 8Kと設定されている。
- 参考スコア(独自算出の注目度): 74.89981179257194
- License:
- Abstract: Existing benchmarks for evaluating long-context language models (LCLMs) primarily focus on long-context recall, requiring models to produce short responses based on a few critical snippets while processing thousands of irrelevant tokens. We introduce LongProc (Long Procedural Generation), a new benchmark that requires both the integration of highly dispersed information and long-form generation. LongProc consists of six diverse procedural generation tasks, such as extracting structured information from HTML pages into a TSV format and executing complex search procedures to create travel plans. These tasks challenge LCLMs by testing their ability to follow detailed procedural instructions, synthesize and reason over dispersed information, and generate structured, long-form outputs (up to 8K tokens). Furthermore, as these tasks adhere to deterministic procedures and yield structured outputs, they enable reliable rule-based evaluation. We evaluate 17 LCLMs on LongProc across three difficulty levels, with maximum numbers of output tokens set at 500, 2K, and 8K. Notably, while all tested models claim a context window size above 32K tokens, open-weight models typically falter on 2K-token tasks, and closed-source models like GPT-4o show significant degradation on 8K-token tasks. Further analysis reveals that LCLMs struggle to maintain long-range coherence in long-form generations. These findings highlight critical limitations in current LCLMs and suggest substantial room for improvement. Data and code available at: https://princeton-pli.github.io/LongProc
- Abstract(参考訳): LCLM(Long-context Language Model)の評価のための既存のベンチマークは、主に長期コンテキストリコールに焦点を当てており、数千の無関係トークンを処理しながら、いくつかの重要なスニペットに基づいて短い応答を生成する必要がある。
高分散情報の統合と長文生成の両方を必要とする新しいベンチマークであるLongProc(Long Procedural Generation)を紹介する。
LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。
これらのタスクはLCLMに挑戦し、詳細な手続き命令に従い、分散された情報を合成し、推論し、構造化された長期出力(最大8Kトークン)を生成する能力をテストする。
さらに、これらのタスクは決定論的手続きに従属し、構造化された出力を出力するので、信頼性の高いルールベースの評価を可能にする。
我々は,LongProc上の17個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
特に、全てのテストされたモデルは32Kトークン以上のコンテキストウィンドウサイズを主張するが、オープンウェイトモデルは一般的に2Kトークンタスクに干渉し、GPT-4oのようなクローズドソースモデルは8Kトークンタスクに大きな劣化を示す。
さらに解析したところ、LCLMは長距離コヒーレンスを維持するのに苦労していることが明らかとなった。
これらの知見は,現在のLCLMの限界を浮き彫りにし,改善の余地があることを示唆している。
https://princeton-pli.github.io/LongProc
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
ロングフォームテキスト生成は、設計提案やクリエイティブな文章作成といったアプリケーションには不可欠である。
新しいロングフォームテキスト評価ベンチマークであるLongGenBenchは、生成されたロングテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs [57.23637303451716]
LLM(Long context large language model)は、最大10000のトークンを処理できるが、2000ワードを超える出力を生成するのに苦労する。
我々は,超長期タスクをサブタスクに分解するエージェントベースのパイプラインであるAgentWriteを紹介する。
出力長が2kから32kのSFTデータを含むデータセットであるLongWriter-6kを構築した。
論文 参考訳(メタデータ) (2024-08-13T17:46:12Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。