論文の概要: CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations
- arxiv url: http://arxiv.org/abs/2605.07325v1
- Date: Fri, 08 May 2026 06:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.859109
- Title: CSR: Infinite-Horizon Real-Time Policies with Massive Cached State Representations
- Title(参考訳): CSR: 大規模キャッシュ状態表現を備えた無限水平リアルタイムポリシー
- Authors: Robin Karlsson, Go Suzui,
- Abstract要約: これらの特性の実用的なインスタンス化として,Cached State Representation (CSR) フレームワークを紹介した。
ASR(Asynchronous State Reconciliation)アルゴリズムは、状態メモリの解放を並列計算リソースにオフロードし、遅延スパイクを排除する。
オンプレミスのGPUサーバにワイヤレスで接続された物理ロボットでは、CSRは120Kトークンコンテキストに対して26倍のレイテンシ低減(14.67sから0.56s)を達成する。
- 参考スコア(独自算出の注目度): 0.1104960878651584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying massive large language models (LLMs) as continuous cognitive engines for robotics is bottlenecked by the time-to-first-token (TTFT) latency required to process extensive state histories. Existing solutions like RAG or sliding windows compromise global context or incur prohibitive re-computation costs. We formalize the optimal task structure for minimizing latency and theoretically prove that prefix stability, incremental extensibility, and asynchronous state reconciliation are necessary conditions for real-time performance. Building on these proofs, we introduce the Cached State Representation (CSR) framework as the practical instantiation of these properties, ensuring optimal KV-cache reuse. To sustain these properties over infinite horizons, we further propose an Asynchronous State Reconciliation (ASR) algorithm that offloads state memory eviction to a parallel computational resource to eliminate latency spikes. On a physical robot wirelessly connected to an on-premise GPU server, CSR achieves a 26-fold latency reduction (14.67s to 0.56s) for 120K token contexts with a 235B parameter model compared to a standard baseline. On an embodied AI benchmark, we achieve SOTA recall (0.836 vs. 0.459) while maintaining RAG-level latency. ASR is validated to sustain bounded, spike-free TTFT over 10 eviction cycles in continuous real-world operation. Together, CSR and ASR enable massive LLMs to function as continuously operating, high-frequency (> 2 Hz) embodied policies.
- Abstract(参考訳): 大規模大規模言語モデル(LLM)をロボット工学の継続的認知エンジンとしてデプロイすることは、広範な状態履歴を処理するのに必要なTTFTレイテンシによってボトルネックとなる。
RAGやスライディングウィンドウといった既存のソリューションは、グローバルなコンテキストを妥協したり、禁忌の再計算コストを犠牲にします。
遅延最小化のための最適タスク構造を定式化し、プレフィックス安定性、インクリメンタル拡張性、非同期状態調整がリアルタイムパフォーマンスに必要な条件であることを理論的に証明する。
これらの証明に基づいて、これらの特性の実用的なインスタンス化としてCached State Representation (CSR) フレームワークを導入し、最適なKV-cache再利用を実現する。
さらに,これらの特性を無限の地平線上で維持するために,並列計算資源に状態メモリ解放をオフロードし,遅延スパイクを除去する非同期状態再構成(ASR)アルゴリズムを提案する。
オンプレミスのGPUサーバに無線接続された物理ロボットにおいて、CSRは標準ベースラインと比較して235Bパラメータモデルで120Kトークンコンテキストに対して26倍のレイテンシ低減(14.67s〜0.56s)を達成する。
具体的AIベンチマークでは、RAGレベルのレイテンシを維持しながらSOTAリコール(0.836 vs. 0.459)を達成する。
ASRは、実世界の連続運転において10サイクルにわたって、有界でスパイクのないTTFTを維持することが検証されている。
CSRとASRは共に、大規模なLCMを連続的に動作し、高周波(>2Hz)の実施ポリシーとして機能させる。
関連論文リスト
- DiscreteRTC: Discrete Diffusion Policies are Natural Asynchronous Executors [57.944744187489185]
外部修正をネイティブなアンマスクに置き換えるDiscreteRTCを提案する。
DiscreteRTCは、非同期のインペインティングのために0行のコードを実装するのが簡単で、スクラッチから生成したアクションに比べてわずか0.7倍の計算速度で推論が高速で、フローベースのRTCに比べて実世界の動的ピックタスクの成功率が50%向上した。
論文 参考訳(メタデータ) (2026-04-27T23:04:03Z) - DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks [54.32016216994156]
本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
論文 参考訳(メタデータ) (2026-04-13T03:19:36Z) - Mitigating Temporal Blindness in Kubernetes Autoscaling: An Attention-Double-LSTM Framework [0.0]
本稿では,作業負荷の予測と制御をアテンション強化型2重スタックLSTMアーキテクチャを介して統合する,安定性を考慮した自動スケーリングフレームワークを提案する。
このアプローチは90パーセントのレイテンシを約29%削減すると同時に,レプリカを39%削減することを示す。
これらの結果は, 生産エッジ環境における信頼性, 低ジッタ自動スケーリングの前提条件として, 深い注意記憶による時間的盲点の緩和が重要であることを確認した。
論文 参考訳(メタデータ) (2026-03-21T10:03:53Z) - Deep Reinforcement Learning-driven Edge Offloading for Latency-constrained XR pipelines [0.0]
没入型拡張現実(XR)アプリケーションは、リアルタイムの応答性を厳格に満たさなければならないレイテンシクリティカルなワークロードを導入します。
適応実行と計算オフロードに対する既存のアプローチは、リアルタイムレイテンシ要求とデバイスバッテリ寿命の間の持続的な相互作用を完全に捉えていない。
本稿では,エッジ支援型XRシステムに対して,実行場所,ワークロード品質,レイテンシ要件,バッテリダイナミクスを共同で検討した,バッテリ対応型実行管理フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-17T17:30:11Z) - Parallel Continuous-Time Relative Localization with Augmented Clamped Non-Uniform B-Splines [13.396140913210637]
本稿では,CT-RIO(Continuous-Time Relative-Inertial Odometry framework)を提案する。
C-NUBS(Clarmped Non-Uniform B-splines)をロボットの状態を表すために使用し、クエリ時間遅延を排除した。
常に最先端の手法より優れており、高速動作下では最大60%改善されている。
論文 参考訳(メタデータ) (2026-02-25T15:23:18Z) - Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications [2.9668257052955176]
本稿では,人間のフィードバック,セマンティック・ユーティリティ,遅延制御を組み込んだ時間制約付き人間間強化学習フレームワークを提案する。
人間のフィードバックによる意味適応をマルコフ決定過程として定式化する。
我々は,T-HITL-RLがユーザ毎のタイミング制約を一貫して満たし,ベースラインスケジューラの報酬を上回り,リソース消費を安定させることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:07:41Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating [8.031311182554981]
長距離ロボット操作は、高レベルの計画と低レベルの制御のギャップを埋める必要がある。
現在のVision-Language-Actionモデルは、しばしばこれらのプロセスを絡めて、各ステップで冗長なマルチモーダル推論を実行する。
本稿では、テキストタスクの分解、視覚目標の想像力、連続的なアクション生成を単一のパラメータ効率のバックボーン内で統合するデュアルシステムアーキテクチャStreamVLAを提案する。
論文 参考訳(メタデータ) (2026-02-01T08:51:17Z) - From Completion to Editing: Unlocking Context-Aware Code Infilling via Search-and-Replace Instruction Tuning [81.97788535387286]
本稿では,エージェントによる検証・編集機構を統一された単一パス推論プロセスに内部化するフレームワークを提案する。
最小限のデータで、SRI-Coderは、ChatモデルがBaseモデルの完了性能を上回ることができる。
FIMスタイルのチューニングとは異なり、SRIは一般的なコーディング能力を保持し、標準のFIMに匹敵する推論遅延を維持する。
論文 参考訳(メタデータ) (2026-01-19T20:33:53Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Edge Continual Learning for Dynamic Digital Twins over Wireless Networks [68.65520952712914]
デジタルツイン(DT)は、現実世界とメタバースの間の重要なリンクを構成する。
本稿では,物理的双生児とそれに対応するサイバー双生児の親和性を正確にモデル化する新しいエッジ連続学習フレームワークを提案する。
提案するフレームワークは,破滅的忘れ込みに対して頑健な,高精度かつ同期的なCTモデルを実現する。
論文 参考訳(メタデータ) (2022-04-10T23:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。