論文の概要: Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.18107v1
- Date: Mon, 20 Apr 2026 11:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.832794
- Title: Test-Time Perturbation Learning with Delayed Feedback for Vision-Language-Action Models
- Title(参考訳): ビジョン・ランゲージ・アクションモデルに対する遅延フィードバックを用いたテスト時間摂動学習
- Authors: Zehua Zang, Xi Wang, Fuchun Sun, Xiao Xu, Lixiang Lium, Jiahuan Zhou, Jiangmeng Li,
- Abstract要約: VLA(Vision-Language-Action Model)は、逐次的な意思決定において優れた性能を発揮するが、微妙な環境変化に対して脆弱である。
検証自由なテスト時間適応フレームワークである遅延フィードバックを用いた摂動学習(PDF)を提案する。
- 参考スコア(独自算出の注目度): 48.89466384943165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action models (VLAs) achieve remarkable performance in sequential decision-making but remain fragile to subtle environmental shifts, such as small changes in object pose. We attribute this brittleness to trajectory overfitting, where VLAs over-attend to the spurious correlation between actions and entities, then reproduce memorized action patterns. We propose Perturbation learning with Delayed Feedback (PDF), a verifier-free test-time adaptation framework that improves decision performance without fine-tuning the base model. PDF mitigates the spurious correlation through uncertainty-based data augmentation and action voting, while an adaptive scheduler allocates augmentation budgets to balance performance and efficiency. To further improve stability, PDF learns a lightweight perturbation module that retrospectively adjusts action logits guided by delayed feedback, correcting overconfidence issue. Experiments on LIBERO (+7.4\% success rate) and Atari (+10.3 human normalized score) demonstrate consistent gains of PDF in task success over vanilla VLA and VLA with test-time adaptation, establishing a practical path toward reliable test-time adaptation in multimodal decision-making agents. The code is available at \href{https://github.com/zhoujiahuan1991/CVPR2026-PDF}{https://github.com/zhoujiahuan1991/CVPR2026-PDF}.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、連続的な意思決定において顕著なパフォーマンスを達成するが、オブジェクトのポーズの変化など、微妙な環境変化に対して脆弱なままである。
この脆さは、VLAが行動と実体の急激な相関により過度に到達し、記憶された行動パターンを再現する軌道過適合に起因している。
基本モデルを微調整することなく意思決定性能を向上させる検証不要なテスト時間適応フレームワークである遅延フィードバックを用いた摂動学習(PDF)を提案する。
PDFは不確実性に基づくデータ拡張とアクション投票による素早い相関を緩和し、適応型スケジューラはパフォーマンスと効率のバランスをとるために拡張予算を割り当てる。
安定性をさらに向上するため、PDFは、遅延フィードバックによって導かれるアクションロジットを遡及的に調整し、過信の問題を修正する、軽量な摂動モジュールを学習した。
LIBERO(+7.4\%成功率)とAtari(+10.3人正規化スコア)の実験は、バニラVLAとVLAのタスク成功におけるPDFの一貫性のある利得を示し、マルチモーダル意思決定エージェントにおける信頼性の高いテストタイム適応への実践的な道を確立した。
コードは \href{https://github.com/zhoujiahuan 1991/CVPR2026-PDF}{https://github.com/zhoujiahuan 1991/CVPR2026-PDF} で公開されている。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文 参考訳(メタデータ) (2025-03-11T12:24:54Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。