論文の概要: AURA: Action-Gated Memory for Robot Policies at Constant VRAM
- arxiv url: http://arxiv.org/abs/2606.02775v1
- Date: Mon, 01 Jun 2026 18:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.544903
- Title: AURA: Action-Gated Memory for Robot Policies at Constant VRAM
- Title(参考訳): AURA:定VRAMにおけるロボットポリシーのアクションゲートメモリ
- Authors: Josef Chen,
- Abstract要約: AURA-Memは、一定サイズのリカレントメモリと学習ゲートを備えた凍結された視覚言語アクションバックボーンをラップする。
AURA-Mem は 5.19-6.13 倍の書き込みと 9.19 倍の書き込みを使用して、O(1) のベースラインを精度良く一致させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The KV-cache is the right memory for datacenters but the wrong memory for robots. Datacenter inference batches many short requests and resets them, amortizing an attention cache across a crowd. Embodied agents instead run one long, non-resetting episode on bandwidth-limited edge hardware, where high-bandwidth memory and flash are scarce, flash has finite write endurance, and memory writes rather than compute can become the binding constraint. AURA-Mem (Action-Utility Recurrent Adaptive Memory) targets this regime. It wraps a frozen vision-language-action backbone with a constant-size recurrent memory and a learned gate that writes only when the current observation would change the next action: memory that knows when to stay silent. Unlike reconstruction-based memory, the gate is trained directly against a closed-loop action-error signal. Its inference state is fixed at 4,224 bytes regardless of horizon, while a KV-cache grows to 6,061 times larger at 100,000 steps. On a controlled synthetic benchmark, AURA-Mem matches the best O(1) baseline in accuracy while using 5.19-6.13 times fewer writes, and up to 9.19 times fewer writes on easier configurations. Budget-matched random and periodic schedules do not recover this gain, isolating the benefit to the action-surprise signal. On a trained closed-loop OpenVLA-OFT 7B panel on LIBERO-Long (n=60 episodes per arm), the gate does not hurt success: AURA-Mem matches the ungated base policy (0.233) and slightly exceeds an always-write KV arm (0.217), while using 7.0 times fewer writes and constant memory. We also instantiate an approximate-information-state value-loss bound as a methodology demonstration; at this scale, the bound is vacuous rather than a guarantee.
- Abstract(参考訳): KV-cacheはデータセンターに適したメモリですが、ロボットにとって間違ったメモリです。
データセンタの推論は多くのショートリクエストをバッチしてリセットし、群衆全体のアテンションキャッシュを償却する。
エンボダイドエージェントは、帯域幅制限のあるエッジハードウェア上で1つの長い非リセットエピソードを実行し、高帯域幅のメモリとフラッシュが不足し、フラッシュは書き込み耐性が有限であり、計算よりもメモリ書き込みがバインディング制約となる。
AURA-Mem(Action-Utility Recurrent Adaptive Memory)はこのシステムをターゲットにしている。
凍結した視覚言語によるアクションバックボーンを、一定サイズのリカレントメモリでラップし、現在の観察が次のアクションを変更する場合にのみ、学習ゲートを書き込みます。
レコンストラクションベースのメモリとは異なり、ゲートは閉ループアクションエラー信号に対して直接訓練される。
推定状態は地平線によらず4,224バイトで固定され、KV-cacheは10万歩で6,061倍に大きくなる。
制御された合成ベンチマークでは、AURA-Memは5.19-6.13倍の書き込みと9.19倍の簡単な設定での書き込みを使用して、最高のO(1)ベースラインと精度で一致している。
予算整合のランダムスケジュールと周期スケジュールは、この利得を回復せず、アクションサプライズ信号の利点を分離する。
LIBERO-Long上の訓練されたクローズループOpenVLA-OFT 7Bパネル(腕当たり60話)では、AURA-Memはアンゲートベースポリシー(0.233)にマッチし、常書きKVアーム(0.217)をわずかに上回り、7.0倍の書き込みと定数メモリを使用する。
また、方法論実証として、近似情報-状態値-損失境界をインスタンス化する。
関連論文リスト
- Attend Locally, Remember Linearly: Linear Attention as Cross-Frame Memory for Autoregressive Video Diffusion [61.57938553036056]
ARL2は、二次的なクロスフレームアテンションを固定サイズのリカレント状態に置き換えるハイブリッドアテンションモジュールである。
本研究では,フレーム内ソフトマックスブランチとフレーム間リカレント線形ブランチの2つに分割し,ストリームコンテキストの固定サイズ状態を維持する。
75%の層がハイブリッドリニアアテンションに置き換えられ、最大2.26ウォールクロックのスピードアップと54%のメモリ削減を実現した。
論文 参考訳(メタデータ) (2026-05-15T19:33:45Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning [8.216400469571084]
効率的な実施計画のためのKVキャッシュ型メモリ管理システムKEEPを提案する。
KEEPは,(1)混合粒度メモリグループによるKVキャッシュ再計算を低減する静的動的メモリ構築アルゴリズム,(2)異なるメモリグループ間の重要なクロスアテンションを動的に識別するマルチホップメモリ再計算アルゴリズム,(3)不均衡なKVキャッシュのロードと異なるレイヤ間のクロスアテンションを排除するレイヤバランスのメモリローディングという3つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2026-02-27T01:48:07Z) - Evict3R: Training-Free Token Eviction for Memory-Bounded Streaming Visual Geometry Transformers [1.9268905951820923]
StreamVGGTのようなストリーミングビジュアルトランスフォーマーは、強力な3D認識を実現するが、キーバリュー(KV)メモリの増大に悩まされる。
本稿では、冗長なトークンを破棄し、最も情報性の高いトークンを保持しながらメモリをバウンドする、トレーニング不要な推論時トークン消去ポリシーを提案する。
論文 参考訳(メタデータ) (2025-09-22T11:54:58Z) - MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。