論文の概要: NoLiMa: Long-Context Evaluation Beyond Literal Matching
- arxiv url: http://arxiv.org/abs/2502.05167v1
- Date: Fri, 07 Feb 2025 18:49:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:50.172585
- Title: NoLiMa: Long-Context Evaluation Beyond Literal Matching
- Title(参考訳): NoLiMa:リテラルマッチングを超えた長期評価
- Authors: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze,
- Abstract要約: 最近の大規模言語モデル(LLM)は、128Kから1Mトークンのコンテキストをサポートする。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLCMを評価した。
短いコンテキストではうまく機能するが、コンテキストの長さが増加するにつれてパフォーマンスは著しく低下する。
- 参考スコア(独自算出の注目度): 100.00398424275501
- License:
- Abstract: Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、128Kから1Mトークンまでの長いコンテキストをサポートする。
これらの能力を評価するための一般的な方法として、ニードル・イン・ア・ヘイスタック(NIAH)テストがある。
このアプローチの拡張には、イントラクタの増加、ファクトチェイン、コンテキスト内推論などが含まれる。
しかし、これらのベンチマークでは、モデルが針と干し草のスタックの間の既存のリテラルマッチングを利用してタスクを単純化することができる。
そこで本研究では, NIAH を拡張したベンチマークである NoLiMa を導入し, 質問や針の重なりが最小限に抑えられている。
我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12の人気のあるLCMを評価した。
短いコンテキスト(1K)ではよく機能するが、コンテキストの長さが増加するにつれて性能は著しく低下する。
例えば32Kでは、10台のモデルが長短のベースラインの50%以下に落ちている。
最も優れた例外の1つであるGPT-4oでさえ、ほぼ完全なベースラインの99.3%から69.7%に減少している。
分析の結果,リテラルマッチングが欠如している場合,注意機構が長時間のコンテキストで直面する困難が増加し,関連情報の検索が困難になることが示唆された。
関連論文リスト
- Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文 参考訳(メタデータ) (2024-06-14T16:00:29Z) - LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages [8.754506364968394]
LingOlyベンチマークは、大規模言語モデルにおける高度な推論能力のための新しいベンチマークである。
非常に低リソースまたは絶滅した言語における言語パターンの文脈内同定と一般化の能力を評価する。
直接精度と非文脈ベースラインとの比較により,暗記を暗記する性能を評価する。
論文 参考訳(メタデータ) (2024-06-10T11:50:29Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - $\infty$Bench: Extending Long Context Evaluation Beyond 100K Tokens [64.08660301017302]
現在、この長期コンテキスト機能を評価するための標準ベンチマークが欠落している。
$infty$Benchは、平均データ長が100Kを超える最初のベンチマークである。
その結果,100K以上のコンテキストを効果的に処理するには,既存の長期的LLMの大幅な進歩が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:30:29Z) - LV-Eval: A Balanced Long-Context Benchmark with 5 Length Levels Up to 256K [46.966627564849944]
LV-Evalは5つの長さレベルが256kまで達する長文の長文ベンチマークである。
LV-Evalの利点は、異なるコンテキストの長さにわたる制御可能な評価、紛らわしい事実を持つテストインスタンスへの挑戦、より客観的な評価である。
論文 参考訳(メタデータ) (2024-02-06T13:11:19Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。