論文の概要: LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm
- arxiv url: http://arxiv.org/abs/2502.19103v2
- Date: Fri, 07 Mar 2025 11:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:33.754432
- Title: LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm
- Title(参考訳): LongEval: 計画に基づくパラダイムによる長文生成の包括的解析
- Authors: Siwei Wu, Yizhi Li, Xingwei Qu, Rishi Ravikumar, Yucheng Li, Tyler Loakman, Shanghaoran Quan, Xiaoyong Wei, Riza Batista-Navarro, Chenghua Lin,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。
提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
- 参考スコア(独自算出の注目度): 21.661578831520963
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable success in various natural language processing tasks, yet their ability to generate long-form content remains poorly understood and evaluated. Our analysis reveals that current LLMs struggle with length requirements and information density in long-text generation, with performance deteriorating as text length increases. To quantitively locate such a performance degradation and provide further insights on model development, we present LongEval, a benchmark that evaluates long-text generation through both direct and plan-based generation paradigms, inspired by cognitive and linguistic writing models. The comprehensive experiments in this work reveal interesting findings such as that while model size correlates with generation ability, the small-scale model (e.g., LongWriter), well-trained on long texts, has comparable performance. All code and datasets are released in https://github.com/Wusiwei0410/LongEval.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めてきたが、長文コンテンツを生成する能力はいまだに理解され評価されていない。
解析の結果,LLMは長文生成において長文化の要求や情報密度に悩まされており,テキスト長の増加に伴い性能が低下していることが明らかとなった。
このような性能劣化を定量的に検出し、モデル開発に関するさらなる知見を提供するために、LongEvalを提案する。LongEvalは、認知的および言語的記述モデルにインスパイアされた、直接的および計画的生成パラダイムの両方を通じて、長文生成を評価するベンチマークである。
この研究における包括的な実験は、モデルサイズが生成能力と相関する一方で、長文でよく訓練された小規模モデル(例えばLongWriter)が同等のパフォーマンスを持つという興味深い結果を示している。
すべてのコードとデータセットはhttps://github.com/Wusiwei0410/LongEvalでリリースされる。
関連論文リスト
- NExtLong: Toward Effective Long-Context Training without Long Documents [28.002824369635768]
我々はNextLongを提案する。NextLongは、Negative Document Extensionを通じて、長文データのための新しいフレームワークである。
NExtLongは文書を複数のメタチャンクに分解し、事前学習したコーパスから取得したハードネガティブなイントラクタをインターリーブすることによってコンテキストを拡張する。
大規模な実験により、NExtLongは既存の長文合成手法と比較して、大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-22T10:01:54Z) - HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。
HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。
また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文 参考訳(メタデータ) (2024-09-24T15:38:11Z) - LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
LongGenBenchは、大規模言語モデルの長文生成能力を厳格に評価するために設計された、新しいベンチマークである。
4つの異なるシナリオ、3つの命令タイプ、2つの世代長(16Kおよび32Kトークン)でモデル性能を評価する。
この結果から,LongGenBench上での長文生成に苦戦するモデルが多数存在することが明らかとなった。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - LongLaMP: A Benchmark for Personalized Long-form Text Generation [87.41296912519992]
長文言語モデルパーソナライゼーション(LongLaMP)ベンチマークを開発した。
LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。
その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2024-06-27T01:52:05Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。