論文の概要: LongGenBench: Long-context Generation Benchmark
- arxiv url: http://arxiv.org/abs/2410.04199v2
- Date: Thu, 24 Oct 2024 14:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 13:31:47.763687
- Title: LongGenBench: Long-context Generation Benchmark
- Title(参考訳): LongGenBench: 長期コンテキスト生成ベンチマーク
- Authors: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu,
- Abstract要約: ロングコンテキスト生成(Long-context generation)とは、コヒーレントで文脈的に正確なテキストを生成する言語モデルの能力である。
我々は、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを紹介した。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、一貫性のある1つの長文の回答を必要とする。
- 参考スコア(独自算出の注目度): 20.531098579781162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.
- Abstract(参考訳): 現在のロングコンテキストベンチマークは、主に検索ベースのテストに焦点を当てており、大規模な言語モデル(LLM)は、ニードル・イン・ア・ヘイスタック(NIAH)ベンチマークのような、広範囲な入力コンテキスト内で特定の情報を見つける必要がある。
長文生成(Long-context generation)とは、長い文節や文書にまたがるコヒーレントで文脈的に正確なテキストを生成する言語モデルである。
最近の研究は、NIAHや他の検索ベースの長文ベンチマークに強い性能を示すが、長文生成能力を評価するためのベンチマークが欠如している。
このギャップを埋め、包括的な評価を提供するために、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを導入する。
LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、LLMが単一の密集したロングコンテキストの回答で応答する必要がある。
1) APIアクセスモデルとオープンソースモデルの両方が1.2%から47.1%の長文生成シナリオで性能劣化を示す; (2) LLMの異なるシリーズはパフォーマンス劣化の傾向を示す; Gemini-1.5-FlashモデルはAPIアクセスモデルで最小の劣化を示す; Qwen2シリーズはオープンソースモデルでLongGenBenchで最小の劣化を示す。
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
ロングフォームテキスト生成は、設計提案やクリエイティブな文章作成といったアプリケーションには不可欠である。
新しいロングフォームテキスト評価ベンチマークであるLongGenBenchは、生成されたロングテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
論文 参考訳(メタデータ) (2024-09-03T17:25:54Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models [45.892014195594314]
長文LLMを評価するための総合的な中国のベンチマークであるCLongEvalを提案する。
CLongEvalの特徴は,(1) 7つの異なるタスクと7,267のサンプルからなる十分なデータボリューム,(2)コンテキストウィンドウサイズ1Kから100Kのモデルに適応する広範適用性,(3)高品質,2,000以上の手動で注釈付き質問応答ペア,に加えて自動構築されたラベル。
論文 参考訳(メタデータ) (2024-03-06T07:43:43Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。