論文の概要: Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2604.23620v1
- Date: Sun, 26 Apr 2026 09:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.465417
- Title: Move-Then-Operate: Behavioral Phasing for Human-Like Robotic Manipulation
- Title(参考訳): Move-Then-Operate:人間ライクなロボットマニピュレーションのための行動推論
- Authors: Haoming Xu, Lei Lei, Jie Gu, Chu Tang, Jingmin Chen, Ruiqi Wang,
- Abstract要約: 我々は、ロボット操作を2つの異なる行動段階に明確に分離するビジョン言語アクションフレームワークであるMove-Then-Operateを紹介する。
フェーズラベルは、軽量コンテキストキューで条件付きMLLMベースのパイプラインを通じて自動的に生成される。
移動・運行段階のアーキテクチャ上の混乱は,高精度な操作を習得する上で,極めて効果的かつ効率的な戦略であることを示す。
- 参考スコア(独自算出の注目度): 14.56932619760763
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Move-Then-Operate, a Vision language action framework that explicitly decouples robotic manipulation into two distinct behavioral phases: coarse relocation (move) and contact-critical interaction (operate). Unlike monolithic policies that conflate these heterogeneous regimes, our architecture employs a dual-expert policy routed by a learnable phase selector, introducing a structural inductive bias that isolates phase-specific dynamics. Phase labels are automatically generated via an MLLM-based pipeline conditioned on lightweight contextual cues such as end-effector velocity and subtask decomposition to ensure alignment with human motor patterns. Evaluated on the RoboTwin2 benchmark, our method achieves an average success rate of $68.9\%$, outperforming the monolithic $π_0$ baseline by $24\%$. It matches or exceeds models trained on $10\times$ more data and reaches peak performance in $40\%$ fewer training steps, demonstrating that architectural disentanglement of move and operate phases is a highly effective and efficient strategy for mastering high-precision manipulation.
- Abstract(参考訳): 我々は、ロボット操作を、粗い移動(移動)と接触クリティカルな相互作用(操作)の2つの異なる行動フェーズに明確に分離するビジョン言語アクションフレームワークであるMove-Then-Operateを紹介する。
これらの不均一な体制を分割するモノリシックな政策とは異なり、我々のアーキテクチャは、学習可能な位相セレクタによってルートされるデュアルエキスパートポリシーを採用し、位相固有力学を分離する構造的帰納バイアスを導入している。
位相ラベルは、エンドエフェクタ速度やサブタスク分解などの軽量なコンテキストキューに条件付けされたMLLMベースのパイプラインを介して自動生成され、人間の運動パターンとの整合性を確保する。
RoboTwin2 ベンチマークで評価した結果, モノリシックな π_0$ ベースラインよりも平均成功率 68.9 %$ が2,4 %$ 向上した。
10\times$以上のデータでトレーニングされたモデルと一致し、40\%のトレーニングステップでピークパフォーマンスに達する。
関連論文リスト
- InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文 参考訳(メタデータ) (2026-01-05T18:54:29Z) - FreeAction: Training-Free Techniques for Enhanced Fidelity of Trajectory-to-Video Generation [50.39748673817223]
本稿では,ロボットビデオ生成における明示的な動作パラメータを完全に活用する2つのトレーニング不要な推論時間手法を提案する。
第一に、アクションスケールの分類器フリーガイダンスは、動作の大きさに比例して誘導強度を動的に調整し、運動強度に対する制御性を高める。
第二に、アクションスケールノイズトランケーションは、初期サンプルノイズの分布を調整し、所望の運動力学とよりよく一致させる。
論文 参考訳(メタデータ) (2025-09-29T03:30:40Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation [48.08416841005715]
両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
論文 参考訳(メタデータ) (2024-06-14T14:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。