論文の概要: Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.07472v1
- Date: Mon, 08 Dec 2025 11:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.87016
- Title: Affordance Field Intervention: Enabling VLAs to Escape Memory Traps in Robotic Manipulation
- Title(参考訳): Affordance Field Intervention:ロボットマニピュレーションにおけるVLAによるメモリトラップの回避
- Authors: Siyu Xu, Zijian Wang, Yunke Wang, Chenghao Xia, Tao Huang, Chang Xu,
- Abstract要約: Affordance Field Intervention (AFI)は、SAFをオンデマンドプラグインとして使用してVLA動作をガイドする軽量なハイブリッドフレームワークである。
VLAバックボーンの平均改善率は23.5%である。
- 参考スコア(独自算出の注目度): 25.496791183299692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown great performance in robotic manipulation by mapping visual observations and language instructions directly to actions. However, they remain brittle under distribution shifts: when test scenarios change, VLAs often reproduce memorized trajectories instead of adapting to the updated scene, which is a failure mode we refer to as the "Memory Trap". This limitation stems from the end-to-end design, which lacks explicit 3D spatial reasoning and prevents reliable identification of actionable regions in unfamiliar environments. To compensate for this missing spatial understanding, 3D Spatial Affordance Fields (SAFs) can provide a geometric representation that highlights where interactions are physically feasible, offering explicit cues about regions the robot should approach or avoid. We therefore introduce Affordance Field Intervention (AFI), a lightweight hybrid framework that uses SAFs as an on-demand plug-in to guide VLA behavior. Our system detects memory traps through proprioception, repositions the robot to recent high-affordance regions, and proposes affordance-driven waypoints that anchor VLA-generated actions. A SAF-based scorer then selects trajectories with the highest cumulative affordance. Extensive experiments demonstrate that our method achieves an average improvement of 23.5% across different VLA backbones ($π_{0}$ and $π_{0.5}$) under out-of-distribution scenarios on real-world robotic platforms, and 20.2% on the LIBERO-Pro benchmark, validating its effectiveness in enhancing VLA robustness to distribution shifts.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を直接行動にマッピングすることで、ロボット操作において優れた性能を示している。
テストシナリオが変わると、VLAは更新されたシーンに適応するのではなく、記憶されたトラジェクトリを再現します。
この制限は、明示的な3次元空間推論が欠如し、不慣れな環境での動作可能な領域の確実な識別を防止する、エンドツーエンドの設計に起因している。
この空間的理解の欠如を補うために、SAF(Sial Affordance Fields)は、相互作用が物理的に実現可能な場所を強調する幾何学的表現を提供し、ロボットが接近または回避すべき領域について明示的な手がかりを提供する。
そこで我々は,SAFをオンデマンドプラグインとして使用する軽量ハイブリッドフレームワークであるAffordance Field Intervention (AFI)を紹介した。
本システムでは, プロリオセプションによりメモリトラップを検出し, ロボットを近年の高負荷領域に再配置し, VLA生成アクションをアンカーする割高駆動のウェイポイントを提案する。
SAFベースのスコアラーは、最高累積金額のトラジェクトリを選択する。
実世界のロボットプラットフォーム上での流通シナリオ下でのVLAバックボーン(π_{0}$と$π_{0.5}$)の平均改善率は23.5%,LIBERO-Proベンチマークでは20.2%,分散シフトに対するVLAロバスト性の向上効果を検証した。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation [65.6201974979119]
本稿では,効率的なロボットマニピュレーションのためのセマンティックスペーシフィケーション・エンハンスメントを実現する新しいVLAフレームワークSemanticVLAを提案する。
SemanticVLAはOpenVLA on LIBEROベンチマークを21.1%上回り、トレーニングコストと推論遅延を3.0倍と2.7倍に削減した。
論文 参考訳(メタデータ) (2025-11-13T17:24:37Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - PointVLA: Injecting the 3D World into Vision-Language-Action Models [10.758939578236582]
我々は,ポイントクラウド入力を必要とせずに,事前学習された視覚言語行動モデルを強化するフレームワークであるPointVLAを提案する。
本手法は,バニラ動作の専門家を凍結し,軽量なモジュールブロックを介して3次元特徴を注入する。
PointVLAは、シミュレーションと現実世界の両方のロボットタスクにおいて、最先端の2D模倣学習方法より優れています。
論文 参考訳(メタデータ) (2025-03-10T16:32:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。