論文の概要: RW-TTT: Batched Serving for Request-Owned Test-Time Training State
- arxiv url: http://arxiv.org/abs/2605.28053v1
- Date: Wed, 27 May 2026 06:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.828012
- Title: RW-TTT: Batched Serving for Request-Owned Test-Time Training State
- Title(参考訳): RW-TTT:要求に応えたテストタイムトレーニングステートのためのバッチサービング
- Authors: Jian Yang, Zhizhuo Kou, Yao Tian, Hao Zhang, Han Chen, Sirui Han, Yike Guo,
- Abstract要約: テストタイムトレーニングは、要求された状態を読み取ることによって、世代間LLMに適応する。
我々は、この問題を読み書きTTTサービスとして定式化し、RW-TTTを提示する。
8つの高速ウェイトなIn-PlaceTTTストリームでは、RW-TTTは274.61トン/sに達する。
- 参考スコア(独自算出の注目度): 40.81385974521374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time training (TTT) adapts an LLM during generation by reading and updating request-owned state, such as fast weights, low-rank deltas, or streaming learner state. This breaks batched LLM serving, which assumes shared static weights: serial execution is correct but slow, while naive batching can corrupt request state. We formulate this problem as read-write TTT serving and present RW-TTT , which tags each decode step with its owner, version, and READ/WRITE effect, batches only compatible phases, and commits updates only to the owner. On one GPU with eight fast-weight InPlace-TTT streams, RW-TTT reaches 274.61 aggregate tok/s, 9.31x over sequential serving and 3.44x over per-stream replicas under the same memory budget. It preserves behavior on RULER, a long-context benchmark, and passes owner/version checks.
- Abstract(参考訳): テストタイムトレーニング(TTT)は、高速ウェイト、低ランクデルタ、ストリーミング学習状態などの要求依存状態の読み込みと更新によって、世代間LLMに適応する。
シリアル実行は正しいが遅いが、単純バッチ処理は要求状態を損なう可能性がある。
我々は、この問題をリードライトTTTサービスとして定式化し、各デコードステップを所有者、バージョン、READ/WRITEエフェクトにタグ付けし、互換性のあるフェーズのみをバッチ化し、所有者にのみ更新をコミットするRW-TTTを提示する。
8つの高速なInPlace-TTTストリームを持つ1つのGPUでは、RW-TTTは274.61トン/s、シーケンシャルなサービスで9.31倍、同じメモリ予算でストリーム毎のレプリカで3.44倍に達する。
長いコンテキストのベンチマークであるRULERの動作を保存し、オーナー/バージョンチェックをパスする。
関連論文リスト
- SR-TTT: Surprisal-Aware Residual Test-Time Training [0.0]
テストタイムトレーニング(TTT)言語モデルは、O(1)メモリフットプリントを持つ理論的に無限のコンテキストウィンドウを実現する。
純粋なTTアーキテクチャは、正確なリコールタスクで破滅的な失敗を被る。
本稿では,TTTバックボーンをロスゲートスパースメモリ機構で増強することにより,このリコール障害を解消するSR-TTTを提案する。
論文 参考訳(メタデータ) (2026-02-26T01:54:24Z) - AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding [35.10915929939651]
テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
論文 参考訳(メタデータ) (2025-10-08T19:36:11Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Test-Time Training on Video Streams [66.63237260332984]
以前の作業では、テスト時にトレーニングされたモデルをさらに改善するための一般的なフレームワークとして、テスト時間トレーニング(TTT)が確立されていた。
TTTをストリーミング設定に拡張し、複数のテストインスタンスが時間順に到着します。
オンラインTTTは、現実世界の3つのデータセット上で、4つのタスクで固定モデルベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-07-11T05:17:42Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。