論文の概要: End-to-End Test-Time Training for Long Context
- arxiv url: http://arxiv.org/abs/2512.23675v1
- Date: Mon, 29 Dec 2025 18:30:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.614849
- Title: End-to-End Test-Time Training for Long Context
- Title(参考訳): 長期学習のためのエンド・ツー・エンドテストタイムトレーニング
- Authors: Arnuv Tandon, Karan Dalal, Xinhao Li, Daniel Koceja, Marcel Rød, Sam Buchanan, Xiaolong Wang, Jure Leskovec, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin, Jed McCaleb, Yejin Choi, Yu Sun,
- Abstract要約: アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。
我々のモデルは、与えられたコンテキストの次から次までの予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮します。
全体として、テストタイムトレーニング(TTT)の一形態であるE2E(End-to-End)は、テスト時(次世代の予測)とトレーニング時(メタラーニング)の両方である。
- 参考スコア(独自算出の注目度): 98.3930777591529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.
- Abstract(参考訳): アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。
この定式化の下では、標準的なアーキテクチャ -- スライドウインドウの注意を持つトランスフォーマーのみを使用します。
しかし、我々のモデルは、与えられたコンテキストの次点予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮する。
さらに,学習時のメタ学習を通じて,テスト時に学習するモデルの初期化も改善する。
テストタイムトレーニング(TTT)の一形態である本手法は,テスト時間(次点予測による)とトレーニング時間(メタ学習による)の両方において,従来と対照的にエンド・ツー・エンド(E2E)である。
我々は、プロパティのスケーリングに焦点をあてて、広範な実験を行う。
特に、164Bトークンでトレーニングされた3Bモデルでは、我々のメソッド(TTT-E2E)はTransformerと同様のコンテキスト長でスケールするが、Mamba 2やGated DeltaNetのような他のモデルではそうではない。
しかし、RTNと同様、TTT-E2Eはコンテキスト長に関わらず一定の推論遅延を持ち、128Kのコンテキストに対してフルアテンションよりも2.7倍高速である。
私たちのコードは公開されています。
関連論文リスト
- Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - ETT: Expanding the Long Context Understanding Capability of LLMs at Test-Time [4.737679362712655]
ourmodelacronym(Extend at Test-Time)は、短いコンテキストのコンテクスト長を変換子ベースの言語モデルに拡張する手法である。
GPT-LargeとPhi-2のコンテキスト長を32倍に拡張し,LongBench上のETTを評価する。
論文 参考訳(メタデータ) (2025-07-08T18:06:45Z) - Test-Time Training Done Right [61.8429380523577]
テスト時間トレーニング(TTT)モデルは、推論中にモデルの重みの一部を適応させることによってコンテキストをモデル化する。
既存のTT手法は、長文データを扱う上で有効性を示すのに苦労した。
我々は,大規模チャンクテストタイムトレーニング(LaCT)を開発し,ハードウェア利用率を桁違いに向上させる。
論文 参考訳(メタデータ) (2025-05-29T17:50:34Z) - llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length [1.5857828218932415]
本報告では,8192トークンの大規模コーパスをトレーニングしたModernBERTモデルであるllm-jp- Modernbertについて述べる。
我々のモデルは下流タスクの既存のベースラインを超えていないが、満杯テスト評価において良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-22T02:45:19Z) - Learning to (Learn at Test Time): RNNs with Expressive Hidden States [82.35503195691463]
本稿では,線形複雑性と表現的隠蔽状態を持つシーケンスモデリング層をインスタンス化するフレームワークを提案する。
隠れた状態はテストシーケンスでもトレーニングによって更新されるので、私たちのレイヤはテスト時間トレーニング層と呼ばれます。
Transformerと同様に、TT-LinearとTT-MLPはより多くのトークンを条件付けすることでパープレキシティを減少させるが、Mambaは16kコンテキスト以降は不可能である。
論文 参考訳(メタデータ) (2024-07-05T16:23:20Z) - Test-Time Training on Video Streams [66.63237260332984]
以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テスト時間トレーニング(TTT)が確立されていた。
TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-07-11T05:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。