論文の概要: Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.23319v1
- Date: Fri, 28 Nov 2025 16:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.979017
- Title: Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
- Title(参考訳): トーケン数:大規模言語モデルにおける16万超長コンテキストの一般化
- Authors: Xiang Hu, Zhanchao Zhou, Ruiqi Liang, Zehuan Li, Wei Wu, Jianguo Li,
- Abstract要約: HSA-UltraLongは8兆以上のトークンでトレーニングされており、コンテキスト長が最大16Mの異なるタスクで厳格に評価されている。
その結果,本モデルでは,コンテキストが最大16Mのほとんどのテキスト内検索タスクにおいて,90%以上の精度を達成しつつ,ドメイン内長のフルアテンションベースラインに対してコンパティブルに動作可能であることがわかった。
- 参考スコア(独自算出の注目度): 21.28095662875484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: \textbf{sparsity}, \textbf{random-access flexibility}, and \textbf{length generalization}. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.
- Abstract(参考訳): この研究は、効率的な超長期コンテキストモデリングの課題として、長期記憶をフレーミングする ``Machines that Can Remember'' を構築することの課題を探求する。
これは3つの重要な性質を必要とする: \textbf{sparsity}, \textbf{random- Access flexibility}, \textbf{length generalization}。
超長期コンテキストモデリングに対処するために、階層スパース注意(HSA)を利用する。
HSA-UltraLongは8兆以上のトークンでトレーニングされた8BパラメータMOEモデルで、ドメイン内およびドメイン外コンテキスト長の異なるタスクで厳格に評価され、超長期のコンテキストを扱う能力を示す。
その結果、本モデルでは、コンテキストが最大16Mのほとんどのテキスト内検索タスクにおいて、90%以上の精度を達成しつつ、ドメイン内長のフルアテンションベースラインに対してコンパティブルに実行可能であることが示された。
本稿では,実験的な知見とオープンな問題を概説し,超長期文脈モデリングにおける今後の研究の基盤となるものについて述べる。
関連論文リスト
- LongWeave: A Long-Form Generation Benchmark Bridging Real-World Relevance and Verifiability [60.451734326001564]
textbfLongWeaveを導入し、Constraint-Verifier Evaluation(CoV-Eval)による実世界と検証のバランスをとる。
LongWeaveは7つの異なるタスクに対して、カスタマイズ可能な入出力長(最大64K/8Kトークン)をサポートする。
23大言語モデルの評価は、実世界の複雑さと出力長の増加に伴い、最先端モデルでさえ、長文生成において重大な課題に直面していることを示している。
論文 参考訳(メタデータ) (2025-10-28T12:11:12Z) - LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding [19.03169157546538]
textbfLongInsightBenchは、長いビデオを理解するモデルの能力を評価するために設計された最初のベンチマークである。
ベンチマークでは,textbfa, textbfb, textbfcの3つの重要な領域を抽出した。
論文 参考訳(メタデータ) (2025-10-20T08:49:10Z) - SPELL: Self-Play Reinforcement Learning for evolving Long-Context Language Models [79.01078135582127]
SPELLは、長文推論のためのスケーラブルでラベルなしの最適化を可能にする。
本稿では、文書長を徐々に向上させる自動カリキュラムと、モデルの進化する機能に質問の難しさを適応させる報奨関数を導入する。
論文 参考訳(メタデータ) (2025-09-28T13:08:10Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly [77.43867473323566]
長文視覚言語モデル(LCVLM)は、数百の画像を1つのフォワードパスでインターリーブされたテキストトークンで処理することができる。
MMLongBenchは、様々な長いコンテキストの視覚言語タスクをカバーする最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-15T17:52:54Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - RULER: What's the Real Context Size of Your Long-Context Language Models? [23.220973811374225]
我々は、長文言語モデル(LM)を評価するための新しいベンチマークを作成する。
我々はRULERにおける13のタスクを含む17の長文LMを評価した。
ほぼ全てのモデルは、コンテキスト長が増加するにつれて大きなパフォーマンス低下を示す。
論文 参考訳(メタデータ) (2024-04-09T23:41:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。