論文の概要: Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text
- arxiv url: http://arxiv.org/abs/2605.02173v1
- Date: Mon, 04 May 2026 03:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.118456
- Title: Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text
- Title(参考訳): 100M-Token コンテキストウィンドウにおける検索とマルチホップ推論:古典中国語テキストによるLLMの評価
- Authors: Eric H. C. Chow,
- Abstract要約: 広告付き1M-tokenコンテキストウィンドウを用いた5つのフロンティア大言語モデルの長文検索と推論能力の評価を行った。
1Mでのシングルニードル検索は、最強モデルに対して本質的に解決されている。
現在の1Mコンテキストの旗艦間の最も鋭い差別化要因は512Kから1Mへの移行である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We evaluate the long-context retrieval and reasoning capabilities of five frontier large language models with advertised 1M-token context windows on a classical Chinese corpus. Two complementary studies are reported. Test 1 measures single-needle retrieval at 1M tokens of input, with three biographical needles planted at three depths and pairs of real (training-prior-consistent) and altered (training-prior-contradicting) variants to separate genuine in-context retrieval from reliance on memorised training data. Test 2, a follow-up designed to probe whether long-context capability degrades when retrieval requires intermediate reasoning, measures three-hop chain traversal across three context tiers (256K, 512K, and 1M tokens). We find that single-needle retrieval at 1M is essentially solved for the strongest models - Gemini 3.1 Pro, Claude Opus 4.7, and GPT-5.5 each achieve 100% - but that multi-hop performance reveals three distinct decay signatures: a stable regime (Gemini Pro, Claude) maintaining greater than 80% accuracy through 512K with modest degradation at 1M; a late-cliff regime (GPT-5.5, Qwen3.6-plus) collapsing sharply between 512K and 1M; and a smooth-decline regime (DeepSeek V4 Pro) decaying gradually across the entire range. The findings suggest that nominal context-window length is a poor proxy for usable long-context multi-hop capability, and that the sharpest discriminator between current 1M-context flagships is the 512K-to-1M transition.
- Abstract(参考訳): 古典中国語コーパス上の1M-tokenコンテキストウィンドウを宣伝した5つのフロンティア大言語モデルの長文検索と推論能力の評価を行った。
2つの相補的な研究が報告されている。
Test 1は、入力の1Mトークンで単針検索を計測し、3つの伝記針を3つの深さに植え、実(訓練-優先-一貫性)と変化(訓練-事前-矛盾)の変異体を植え込み、記憶されたトレーニングデータに依存する真正の本文検索を分離する。
テスト2は、3つのコンテキスト層(256K, 512K, 1Mトークン)にわたる3つのホップチェーンのトラバースを測定する。
Gemini 3.1 Pro, Claude Opus 4.7, GPT-5.5 の2つの最強モデルに対して,1M でのシングルニードル検索は基本的に解決されている。しかしマルチホップ性能は,安定なレギュレーション (Gemini Pro, Claude) が 1M でのモデスト劣化を伴う512K による80%以上の精度を維持すること,遅延クリフレギュレーション (GPT-5.5, Qwen3.6-plus) が 512K と 1M の間で急激に崩壊すること,スムーズなデクリニングレギュレーション (DeepSeek V4 Pro) が全範囲にわたって徐々に崩壊すること,の3つの異なる崩壊シグネチャを明らかにしている。
この結果から, コンテキストウィンドウ長は, 使用可能な長文マルチホップの指標として不十分であり, 現在の1M-コンテキストフラッグシップ間の最も鋭い差別化要因は512K-to-1M遷移であることが示唆された。
関連論文リスト
- Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM [0.0]
MLX-LMフレームワークをUniversal Assisted Generation (UAG)で拡張し、Apple Silicon上でクロストケナイザの投機的復号を可能にする。
ポーランド語の3つのデータセット(Wikipedia、pl_alpaca、synthetic)の実験では、2, 4, 6のドラフト長kを用いて、ナイーブとコンテキスト対応のトークン翻訳を比較している。
論文 参考訳(メタデータ) (2026-03-22T19:07:41Z) - QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management [81.24674400474989]
QwenLong-L1.5は、体系的なポストトレーニングイノベーションを通じて優れた長文推論機能を提供するモデルである。
我々は,グローバルに分散した証拠に対してマルチホップシーケンスを必要とする難解な推論タスクを生成するための体系的枠組みを開発する。
我々は,4Mトークンを超えるタスクに対して,単一パス推論と反復的メモリベース処理をシームレスに統合するマルチエクスプロイト融合RLトレーニングを用いたメモリ管理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-15T04:11:11Z) - MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes [60.57770396565211]
強い推論能力は、はるかに少ないデータで実現可能であることを示す。
MobileLLM-R50MのAIMEスコアは15.5であり、OLMo-2-1.48Bは0.6、SmolLM-2-1.7Bは0.3である。
論文 参考訳(メタデータ) (2025-09-29T15:43:59Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
コードリポジトリと書籍は長いデータの優れた情報源であることがわかったが、それらと高品質の短文データを組み合わせることが不可欠である。
最終モデルであるProLong-8Bは、128Kの同様のサイズのモデル間で、最先端の長文性能を示す。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context [666.1866258670091]
本稿では,次世代の計算効率の高いマルチモーダルモデルであるGemini 1.5モデルについて紹介する。
ファミリーには2つの新しいモデルが含まれている: (1) アップデートされたGemini 1.5 Proは、機能とベンチマークの大部分で2月バージョンを超え、(2) Gemini 1.5 Flashは、品質の最小限の回帰で効率よく設計された、より軽量な派生型である。
論文 参考訳(メタデータ) (2024-03-08T18:54:20Z) - Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT [48.35407228760352]
検索パイプラインは、文書が長い(例えば10Kトークン以上)ドメインや、関連する文書を識別する場合は、テキスト全体にわたって情報を合成する必要がある。
これらのドメインに適した長文検索エンコーダを開発する。
LoCoV1は,チャンキングが不可能か有効でない場合の長文検索のための新しい12タスクベンチマークである。
次に、M2-BERT検索エンコーダについて述べる。M2-BERT検索エンコーダは、Monarch Mixerアーキテクチャから構築された80Mパラメータの状態空間エンコーダモデルであり、最大32Kトークンまで拡張可能である。
論文 参考訳(メタデータ) (2024-02-12T06:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。