論文の概要: AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.17787v1
- Date: Mon, 20 Apr 2026 04:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.688335
- Title: AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models
- Title(参考訳): Anchor Refine: 軌跡アンカーと残差リファインメントに基づく視覚・言語・アクションモデルのためのシナジー・マニピュレーション
- Authors: Tingzheng Jia, Kan Guo, Lanping Qian, Yongli Hu, Daxin Tian, Guixian Qu, Chunmian Lin, Baocai Yin, Jiapu Wang,
- Abstract要約: 視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
- 参考スコア(独自算出の注目度): 60.04879435087352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precision-critical manipulation requires both global trajectory organization and local execution correction, yet most vision-language-action (VLA) policies generate actions within a single unified space. This monolithic formulation forces macro-level transport and micro-level refinement to be optimized under the same objective, causing large motions to dominate learning while suppressing small but failure-critical corrective signals. In contrast, human manipulation is structured by global movement planning together with continuous local adjustment during execution. Motivated by this principle, we propose AnchorRefine, a hierarchical framework that factorizes VLA action modeling into trajectory anchor and residual refinement. The anchor planner predicts a coarse motion scaffold, while the refinement module corrects execution-level deviations to improve geometric and contact precision. We further introduce a decision-aware gripper refinement mechanism to better capture the discrete and boundary-sensitive nature of gripper control. Experiments on LIBERO, CALVIN, and real-robot tasks demonstrate that AnchorRefine consistently improves both regression-based and diffusion-based VLA backbones, yielding gains of up to 7.8% in simulation success rate and 18% in real-world success rate.
- Abstract(参考訳): 精度クリティカルな操作は、グローバルな軌跡組織と局所的な実行補正の両方を必要とするが、ほとんどの視覚言語アクション(VLA)ポリシーは単一の統一空間内でアクションを生成する。
このモノリシックな定式化は、マクロレベルの輸送とマイクロレベルの改善を同じ目的の下で最適化させ、大きな動きが学習を支配し、小さなが失敗クリティカルな補正信号を抑制する。
対照的に、人間の操作は、実行中の連続的な局所的な調整とともに、グローバルな運動計画によって構成される。
この原理により、VLAの動作モデリングを軌道アンカーと残留精製に分解する階層的フレームワークであるAnchorRefineを提案する。
アンカープランナーは粗い運動足場を予測し、精製モジュールは、幾何的および接触精度を向上させるために実行レベルずれを補正する。
さらに、グリップ制御の離散性および境界感性をよりよく捉えるための、決定対応グリップリファインメント機構を導入する。
LIBERO、CALVIN、および実ロボットタスクの実験により、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善し、シミュレーション成功率の最大7.8%、実世界の成功率の18%を得ることを示した。
関連論文リスト
- Global Evolutionary Steering: Refining Activation Steering Control via Cross-Layer Consistency [12.78111885039368]
アクティベーションエンジニアリングは、微調整の計算コストを伴わずに、大規模言語モデル(LLM)の正確な制御を可能にする。
静的なアクティベーション差からベクトルを導出する既存の手法は、高次元ノイズや階層的なセマンティックドリフトの影響を受けやすい。
本稿では,GERステアリング(Global Evolutionary Refined Steering, GER-steer)を提案する。
論文 参考訳(メタデータ) (2026-03-12T03:45:19Z) - ResWM: Residual-Action World Model for Visual RL [0.06999740786886534]
生の視覚観測から予測的世界モデルを学ぶことは強化学習(RL)の中心的課題である
ResWM(Residual-Action World Model、Residual-Action World Model)は、制御変数を絶対作用から残留作用に再構成する新しいフレームワークである。
ResWMはより安定的でエネルギー効率のよい行動軌跡を生み出す。
論文 参考訳(メタデータ) (2026-03-11T11:27:08Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models [27.774067682004745]
GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
論文 参考訳(メタデータ) (2025-10-20T19:04:09Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。