Fugu-MT 論文翻訳(概要): Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

論文の概要: Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

arxiv url: http://arxiv.org/abs/2409.02076v1
Date: Tue, 3 Sep 2024 17:25:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 00:04:31.259816
Title: Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models
Title（参考訳）: 金糸の紡糸:言語モデルにおける長期生成のベンチマーク
Authors: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee,
Abstract要約: 長文言語モデル (LM) はしばしば "Needle-in-a-Haystack" (NIAH) テストを用いて評価される。我々は、新しい長文テキスト評価ベンチマーク、Spinning the Golden Thread (SGT)を導入した。 SGTは、生成された長いテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
参考スコア（独自算出の注目度）: 4.4965596747053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.
Abstract（参考訳）: 長文言語モデル(LM)の能力は「Needle-in-a-Haystack」(NIAH)テストを用いて評価されることが多い。これらのベンチマークは、モデルがいかに長文入力シーケンスをよく理解しているかを測定するが、長文テキスト生成の質を効果的に評価することは、設計提案や創造的記述のようなアプリケーションにとって重要な側面である。このギャップに対処するため、我々は新しい長文評価ベンチマーク、Spinning the Golden Thread (SGT)を導入しました。本ベンチマークでは,長文LMに対して,特定のイベントや制約を含む長文を生成するように促し,それらの要素を組み込む能力を評価する。我々は,4つのシナリオ,3種類のプロンプト命令,2つの世代長設定(16K,32K)にまたがる10種類の長文LMを評価した。これらのモデルはNIAHベンチマークでよく機能するが、Spinning the Golden Threadで満足できる性能は示さず、命令に従う一貫性のある長文を生成する能力に懸念を抱いた。さらに、生成されたテキストの長さが大きくなると、すべてのモデルのパフォーマンスが大幅に低下する。

関連論文リスト

LongEval: A Comprehensive Analysis of Long-Text Generation Through a Plan-based Paradigm [21.661578831520963]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。解析の結果,LLMは長文生成における長文要求や情報密度に悩まされていることが明らかとなった。提案するLongEvalは,直接および計画に基づく生成パラダイムを用いて,長文生成を評価するベンチマークである。
論文参考訳（メタデータ） (2025-02-26T12:46:36Z)
LongProc: Benchmarking Long-Context Language Models on Long Procedural Generation [74.89981179257194]
LongProc (Long Procedural Generation)は、Long-Context Language Model (LCLM) を評価するための新しいベンチマークである。 LongProcは、HTMLページから構造化された情報をTSVフォーマットに抽出し、旅行計画を作成する複雑な検索手順を実行する6つの手続き生成タスクで構成されている。我々は,LongProcの命令調整モデルと最近の推論モデルを含む23個のLCLMを,500,2K,8Kで設定された最大出力トークン数で3つの難易度で評価した。
論文参考訳（メタデータ） (2025-01-09T18:16:55Z)
Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-10-31T13:47:10Z)
LongGenBench: Long-context Generation Benchmark [20.531098579781162]
ロングコンテキスト生成(Long-context generation)とは、コヒーレントで文脈的に正確なテキストを生成する言語モデルの能力である。我々は、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを紹介した。 LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、一貫性のある1つの長文の回答を必要とする。
論文参考訳（メタデータ） (2024-10-05T15:33:25Z)
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models [89.28591263741973]
長文生成における大規模言語モデルの性能を評価するために,階層長文生成ベンチマーク(HelloBench)を導入する。 HelloBenchはブルームの分類に基づいて、長いテキスト生成タスクをオープンエンドQA、要約、チャット、テキスト補完、テキスト生成の5つのサブタスクに分類する。また,人的評価に要する時間と労力を大幅に削減する人的評価手法である階層的長文評価(HelloEval)を提案する。
論文参考訳（メタデータ） (2024-09-24T15:38:11Z)
LongLaMP: A Benchmark for Personalized Long-form Text Generation [87.41296912519992]
長文言語モデルパーソナライゼーション(LongLaMP)ベンチマークを開発した。 LongLaMPはパーソナライズされた長文生成のための包括的で多様な評価フレームワークを提供する。その結果、多種多様な長文生成タスクにおけるパーソナライズの重要性が浮き彫りになった。
論文参考訳（メタデータ） (2024-06-27T01:52:05Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文参考訳（メタデータ） (2024-05-07T01:56:22Z)
RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。我々はRULERにおける13のタスクを含む17の長文LMを評価した。ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文参考訳（メタデータ） (2024-04-09T23:41:27Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
LOT: A Benchmark for Evaluating Chinese Long Text Understanding and Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文参考訳（メタデータ） (2021-08-30T02:38:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。