論文の概要: Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs
- arxiv url: http://arxiv.org/abs/2605.10094v2
- Date: Tue, 12 May 2026 11:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 15:25:41.415543
- Title: Retrieve-then-Steer: Online Success Memory for Test-Time Adaptation of Generative VLAs
- Title(参考訳): Retrieve-then-Steer: 生成VLAのテスト時間適応のためのオンライン継承メモリ
- Authors: Jianchao Zhao, Huoren Yang, Yusong Hu, Yuyang Gao, Qiguan Ou, Cong Wan, SongLin Dong, Zhiheng Ma, Yihong Gong,
- Abstract要約: 本稿では,VLAモデルのためのオンライン成功メモリ誘導テスト時間適応フレームワークを提案する。
展開中、ロボットは長期記憶に進捗校正された観察動作セグメントを格納する。
推論時に状態関連アクションチャンクを取得し、トラジェクトリレベルの一貫性を通じて一貫性のない候補をフィルタし、それらを前もってエリートアクションに集約する。
この設計により、凍結したVLAは、観測条件付き世代改良を保ちながら、環境特有の成功体験を利用することができる。
- 参考スコア(独自算出の注目度): 39.517362086761075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models show strong potential for general-purpose robotic manipulation, yet their closed-loop reliability often degrades under local deployment conditions. Existing evaluations typically treat test episodes as independent zero-shot trials. However, real robots often operate repeatedly in the same or slowly changing environments, where successful executions provide environment-verified evidence of reliable behavior patterns. We study this persistent-deployment setting, asking whether a partially competent frozen VLA can improve its reliability by reusing its successful test-time experience. We propose an online success-memory guided test-time adaptation framework for generative VLAs. During deployment, the robot stores progress-calibrated successful observation-action segments in a long-term memory. At inference, it retrieves state-relevant action chunks, filters inconsistent candidates via trajectory-level consistency, and aggregates them into an elite action prior. To incorporate this prior into action generation, we introduce confidence-adaptive prior guidance, which injects the elite prior into an intermediate state of the flow-matching action sampler and adjusts the guidance strength based on retrieval confidence. This design allows the frozen VLA to exploit environment-specific successful experience while preserving observation-conditioned generative refinement. This retrieve-then-steer mechanism enables lightweight, non-parametric test-time adaptation without requiring parameter updates. Simulation and real-world experiments show improved task success and closed-loop stability, especially in long-horizon and multi-stage tasks.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、汎用ロボット操作の強力な可能性を示しているが、そのクローズドループの信頼性は、しばしばローカルな配置条件下で低下する。
既存の評価では、テストエピソードを独立したゼロショットトライアルとして扱うのが一般的である。
しかし、実際のロボットはしばしば同じまたはゆっくりと変化する環境で繰り返し動作し、実行が成功すると、信頼性のある行動パターンの環境検証された証拠が提供される。
本研究では、この持続的デプロイ設定について検討し、部分的に有能な凍結VLAがテストタイムの経験を再利用することで信頼性を向上させることができるかどうかを問う。
生成VLAのためのオンライン成功メモリ誘導テスト時間適応フレームワークを提案する。
展開中、ロボットは長期記憶に進捗校正された観察動作セグメントを格納する。
推論時に状態関連アクションチャンクを取得し、トラジェクトリレベルの一貫性を通じて一貫性のない候補をフィルタし、それらを前もってエリートアクションに集約する。
この前処理を動作生成に組み込むために,フローマッチング動作サンプリング器の中間状態にエリートを注入し,検索信頼度に基づいて誘導強度を調整する,信頼適応型事前誘導を導入する。
この設計により、凍結したVLAは、観測条件付き世代改良を保ちながら、環境特有の成功体験を利用することができる。
パラメータ更新を必要とせず、軽量で非パラメトリックなテストタイム適応を可能にする。
シミュレーションと実世界の実験により、特に長距離および多段階のタスクにおいて、タスク成功と閉ループ安定性が改善された。
関連論文リスト
- OFlow: Injecting Object-Aware Temporal Flow Matching for Robust Robotic Manipulation [55.56490813640669]
VLAモデルは典型的には現在のフレームにのみ作用するが、将来の予測とオブジェクト認識推論は別々の潜在空間でしばしば学習される。
本稿では,時間的フォアシークエンスとオブジェクト認識推論を共通化することで,制約に対処するフレームワークOFlowを提案する。
提案手法は, 時間的フローマッチングを用いて将来の潜伏者を予測し, 物理的に関係のある手がかりを強調するオブジェクト認識表現に分解する。
論文 参考訳(メタデータ) (2026-04-20T06:38:01Z) - Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model [10.781664119473966]
本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。
本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
論文 参考訳(メタデータ) (2026-03-18T22:52:03Z) - See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation [59.07792608884117]
本稿では,See, Plan, Rewind (SPR)について紹介する。
SPRは、現在の状態と今後のマイルストーンを見て、次の2Dウェイポイントに向けて軌道を計画し、障害時に回復可能な状態に戻すという、継続的なコアサイクルを通じて運用される。
SPRは、OpenVLA-OFTとUniVLAを上回る最小のパフォーマンス低下で最先端のロバスト性を達成する。
論文 参考訳(メタデータ) (2026-03-10T07:22:51Z) - Modeling and Controlling Deployment Reliability under Temporal Distribution Shift [1.4323566945483497]
本稿では、信頼性を差別と校正からなる動的状態として扱うデプロイメント中心のフレームワークを提案する。
転がりリトレーニングよりもスムーズな信頼性トラジェクトリを実現することができることを示す。
論文 参考訳(メタデータ) (2026-03-01T17:18:44Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - UF-RNN: Real-Time Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction [4.849928323880955]
状態が不確実な環境で効果的に動作するためのロボットの訓練は、ロボット工学における長年の課題である。
本稿では、標準時系列予測とアクティブな「フォレスト」モジュールを組み合わせたモデルである、不確実性駆動型フォレストリカレントニューラルネットワーク(UF-RNN)を提案する。
UF-RNNは、その潜在空間における自己誘起カオス力学を活用することにより、堅牢な適応を示す。
これらの結果は、不確実性駆動型フォレストを模倣学習パイプラインに統合することで、予測不可能な現実世界の状況に対処するロボットの能力を著しく向上させることができることを示唆している。
論文 参考訳(メタデータ) (2025-10-11T13:44:20Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。