論文の概要: TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation
- arxiv url: http://arxiv.org/abs/2603.07647v1
- Date: Sun, 08 Mar 2026 14:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.061307
- Title: TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation
- Title(参考訳): TempoFit: 長距離ビジョン・ランゲージ・アクション操作のためのプラグ・アンド・プレイングレイヤー・ワイズ時間KVメモリ
- Authors: Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen,
- Abstract要約: 我々は、状態レベルのメモリを通じて凍結したビジョン・ランゲージ・アクションポリシーをアップグレードする、トレーニング不要の時間的修正であるTempoFitを紹介する。
私たちの重要な洞察は、プレフィックスアテンションK/Vが、すでにモデルネイティブで、コンテンツ順応可能なランタイム状態を形成しています。
LIBERO-LONGでは、TempoFitは、ほぼリアルタイムのレイテンシを維持しながら、最大4.0%の成功率で、トレーニング済みの強いバックボーンを改善している。
- 参考スコア(独自算出の注目度): 16.28432866472846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained Vision-Language-Action (VLA) policies have achieved strong single-step manipulation, but their inference remains largely memoryless, which is brittle in non-Markovian long-horizon settings with occlusion, state aliasing, and subtle post-action changes. Prior approaches inject history either by stacking frames, which scales visual tokens and latency while adding near-duplicate pixels, or by learning additional temporal interfaces that require (re-)training and may break the original single-frame inference graph. We present TempoFit, a training-free temporal retrofit that upgrades frozen VLAs through state-level memory. Our key insight is that prefix attention K/V already form a model-native, content-addressable runtime state; reusing them across timesteps introduces history without new tokens or trainable modules. TempoFit stores layer-wise FIFO prefix K/V at selected intermediate layers, performs parameter-free K-to-K retrieval with Frame-Gap Temporal Bias (FGTB), a fixed recency bias inspired by positional biases in NLP, to keep decisions present-dominant, and injects the retrieved context via pre-attention residual loading with norm-preserving rescaling to avoid distribution shift under frozen weights. On LIBERO-LONG, TempoFit improves strong pretrained backbones by up to +4.0% average success rate while maintaining near-real-time latency, and it transfers consistently to CALVIN and real-robot long-horizon tasks.
- Abstract(参考訳): 事前訓練されたビジョン・ランゲージ・アクション(VLA)ポリシーは強力な単一ステップ操作を実現しているが、その推論はほとんど記憶に残らず、オクルージョン、状態エイリアス、微妙なポストアクション変化を伴う非マルコフ的ロングホライゾン設定では不安定である。
以前のアプローチでは、ほぼ重複したピクセルを追加しながら、視覚トークンと遅延をスケールするフレームの積み重ねや、(再)トレーニングを必要とし、元の単一フレーム推論グラフを破る可能性のある追加の時間インターフェースの学習によって、履歴を注入する。
我々は、状態レベルのメモリを通じて凍結したVLAをアップグレードするトレーニング不要の時間的修正であるTempoFitを紹介する。
私たちの重要な洞察は、プレフィックスアテンションK/Vが既にモデルネイティブでコンテント対応可能なランタイム状態を形成していることです。
TempoFitは、選択した中間層にレイヤワイドFIFOプレフィックスK/Vを格納し、FGTB(Frame-Gap Temporal Bias)によるパラメータフリーK-to-K検索を行う。
LIBERO-LONGでは、TempoFitは、ほぼリアルタイムのレイテンシを維持しながら、最大で4.0%の成功率で、トレーニング済みの強いバックボーンを改善し、CALVINやリアルロボットのロングホライゾンタスクに一貫して移行する。
関連論文リスト
- MemRoPE: Training-Free Infinite Video Generation via Evolving Memory Tokens [34.228121359393775]
2つの共同設計コンポーネントを備えたトレーニングフリーフレームワークであるMemRoPEを紹介した。
オンラインRoPEインデックスは、回転しないキーをキャッシュし、注意時に位置埋め込みを動的に適用する。
MemRoPEは、時間的コヒーレンス、視覚的忠実度、主観的一貫性において、毎分から1時間単位で既存の手法より優れている。
論文 参考訳(メタデータ) (2026-03-12T23:14:16Z) - TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting [46.671658381710785]
TimeSqueezeは動的パッチ機構で、ローカル信号の複雑さに基づいて各シーケンス内のパッチ境界を適応的に選択する。
TimeSqueezeは、同等のポイントツーケンベースラインに比べて最大20倍高速収束と8倍高いデータ効率を実現している。
論文 参考訳(メタデータ) (2026-03-11T22:38:13Z) - On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。
まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。
本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文 参考訳(メタデータ) (2025-06-11T01:25:06Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Efficient Pretraining Length Scaling [21.4715211093876]
本稿では,事前学習時に効率よく長さのスケーリングを可能にする新しいフレームワークであるParallel Hidden Decoding Transformer(textitPHD-Transformer)を提案する。
textitPHD-Transformerは、オリジナルのトークンと隠された復号トークンを区別する革新的なKVキャッシュ管理戦略を通じてこれを実現している。
論文 参考訳(メタデータ) (2025-04-21T09:41:26Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - TASeg: Temporal Aggregation Network for LiDAR Semantic Segmentation [80.13343299606146]
そこで本稿では, 時系列LiDARアグリゲーション・蒸留(TLAD)アルゴリズムを提案する。
時間画像のフル活用を目的として,カメラFOVを大幅に拡張できるTIAFモジュールを設計した。
また,静的移動スイッチ拡張(SMSA)アルゴリズムを開発し,時間的情報を利用してオブジェクトの動作状態を自由に切り替える。
論文 参考訳(メタデータ) (2024-07-13T03:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。