Fugu-MT 論文翻訳(概要): RULER: What's the Real Context Size of Your Long-Context Language Models?

論文の概要: RULER: What's the Real Context Size of Your Long-Context Language Models?

arxiv url: http://arxiv.org/abs/2404.06654v2
Date: Thu, 11 Apr 2024 23:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 12:17:41.997293
Title: RULER: What's the Real Context Size of Your Long-Context Language Models?
Title（参考訳）: RULER: 長期言語モデルの実際のコンテキストサイズは?
Authors: Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, Boris Ginsburg,
Abstract要約: 我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。我々はRULERにおける13のタスクからなる10の長文LMを評価した。バニラNIAHテストでほぼ完全な精度を達成したにもかかわらず、コンテキスト長が増加するにつれて、全てのモデルは大きな性能低下を示す。
参考スコア（独自算出の注目度）: 23.220973811374225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The needle-in-a-haystack (NIAH) test, which examines the ability to retrieve a piece of information (the "needle") from long distractor texts (the "haystack"), has been widely adopted to evaluate long-context language models (LMs). However, this simple retrieval-based test is indicative of only a superficial form of long-context understanding. To provide a more comprehensive evaluation of long-context LMs, we create a new synthetic benchmark RULER with flexible configurations for customized sequence length and task complexity. RULER expands upon the vanilla NIAH test to encompass variations with diverse types and quantities of needles. Moreover, RULER introduces new task categories multi-hop tracing and aggregation to test behaviors beyond searching from context. We evaluate ten long-context LMs with 13 representative tasks in RULER. Despite achieving nearly perfect accuracy in the vanilla NIAH test, all models exhibit large performance drops as the context length increases. While these models all claim context sizes of 32K tokens or greater, only four models (GPT-4, Command-R, Yi-34B, and Mixtral) can maintain satisfactory performance at the length of 32K. Our analysis of Yi-34B, which supports context length of 200K, reveals large room for improvement as we increase input length and task complexity. We open source RULER to spur comprehensive evaluation of long-context LMs.
Abstract（参考訳）: 長文テキスト(haystack)から情報片(needle)を検索する能力を調べるNIAHテスト(Needle-in-a-haystack)は、長文言語モデル(LM)を評価するために広く採用されている。しかし、この単純な検索に基づくテストは、長文理解の表面的な形式を表わすだけである。長文LMのより包括的評価を行うため,シーケンス長やタスクの複雑さをカスタマイズできるフレキシブルな構成の合成ベンチマークRULERを開発した。 RULER はバニラ NIAH テストに拡張され、様々な種類の針と量を含む。さらに、RULERは、コンテキストからの検索以上の振る舞いをテストするために、新しいタスクカテゴリのマルチホップトレースとアグリゲーションを導入している。我々はRULERにおける13のタスクからなる10の長文LMを評価した。バニラNIAHテストでほぼ完全な精度を達成したにもかかわらず、コンテキスト長が増加するにつれて、全てのモデルは大きな性能低下を示す。これらのモデルは全て32Kトークン以上のコンテキストサイズを主張するが、GPT-4、Command-R、Yi-34B、Mixtralの4モデルのみが32K長で満足な性能を維持することができる。コンテクスト長200KのYi-34Bを解析した結果,入力長とタスクの複雑さが増大するにつれて,大きな改善の余地が明らかとなった。我々はRULERをオープンソース化し、Long-context LMの包括的な評価を促進する。

関連論文リスト

LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark [24.104346815675886]
LongBench Proは、英語と中国語で自然に発生する1500の長文サンプルのより現実的なベンチマークである。タスク固有のメトリクスによるきめ細かい分析と、コンテキスト要求の多次元分類をサポートする。 LongBench Proは、長いコンテキスト理解を進めるための堅牢なテストベッドを提供する。
論文参考訳（メタデータ） (2026-01-06T10:01:59Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
論文参考訳（メタデータ） (2025-02-07T18:49:46Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
LongGenBench: Benchmarking Long-Form Generation in Long Context LLMs [4.4965596747053]
ロングフォームテキスト生成は、設計提案やクリエイティブな文章作成といったアプリケーションには不可欠である。新しいロングフォームテキスト評価ベンチマークであるLongGenBenchは、生成されたロングテキストシーケンス内の特定のイベントを識別するモデルの能力をテストする。
論文参考訳（メタデータ） (2024-09-03T17:25:54Z)
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。 Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文参考訳（メタデータ） (2024-07-19T17:35:47Z)
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window? [37.64593022203498]
NeedleBenchは、バイリンガルの長期コンテキスト能力を評価するための、徐々に難しいタスクからなるフレームワークである。私たちはこのフレームワークを使って、主要なオープンソースモデルがその疑問に関連する重要な情報をどの程度正確に特定できるかを評価する。本稿では,実世界の長文タスクに現れる可能性の高い論理的推論課題の複雑さを模倣するAncestral Trace Challengeを提案する。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文参考訳（メタデータ） (2024-06-25T09:42:56Z)
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。 BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文参考訳（メタデータ） (2024-06-14T16:00:29Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。