論文の概要: Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction
- arxiv url: http://arxiv.org/abs/2504.14588v1
- Date: Sun, 20 Apr 2025 12:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:34:13.21069
- Title: Phoenix: A Motion-based Self-Reflection Framework for Fine-grained Robotic Action Correction
- Title(参考訳): Phoenix:微細なロボット行動補正のためのモーションベースの自己回帰フレームワーク
- Authors: Wenke Xia, Ruoxuan Feng, Dong Wang, Di Hu,
- Abstract要約: ロボットが障害から回復するためには、一般化可能な自己補正システムの構築が不可欠である。
我々は,高レベルな意味的反射と低レベルなロボット動作補正を接続するブリッジとして動作指示を利用するPhoenixフレームワークを構築した。
RoboMimicシミュレーションと実世界のシナリオの両方で実施された実験は、我々のフレームワークのより優れた一般化とロバスト性を証明する。
- 参考スコア(独自算出の注目度): 10.38090975412416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building a generalizable self-correction system is crucial for robots to recover from failures. Despite advancements in Multimodal Large Language Models (MLLMs) that empower robots with semantic reflection ability for failure, translating semantic reflection into how to correct fine-grained robotic actions remains a significant challenge. To address this gap, we build the Phoenix framework, which leverages motion instruction as a bridge to connect high-level semantic reflection with low-level robotic action correction. In this motion-based self-reflection framework, we start with a dual-process motion adjustment mechanism with MLLMs to translate the semantic reflection into coarse-grained motion instruction adjustment. To leverage this motion instruction for guiding how to correct fine-grained robotic actions, a multi-task motion-conditioned diffusion policy is proposed to integrate visual observations for high-frequency robotic action correction. By combining these two models, we could shift the demand for generalization capability from the low-level manipulation policy to the MLLMs-driven motion adjustment model and facilitate precise, fine-grained robotic action correction. Utilizing this framework, we further develop a lifelong learning method to automatically improve the model's capability from interactions with dynamic environments. The experiments conducted in both the RoboMimic simulation and real-world scenarios prove the superior generalization and robustness of our framework across a variety of manipulation tasks. Our code is released at \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}.
- Abstract(参考訳): ロボットが障害から回復するためには、一般化可能な自己補正システムの構築が不可欠である。
失敗に対するセマンティックリフレクション能力を持つロボットに力を与えるマルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、セマンティックリフレクションを微細なロボット動作の修正方法に変換することは大きな課題である。
このギャップに対処するために,高レベルのセマンティックリフレクションと低レベルのロボット動作補正を接続するブリッジとして動作指示を利用するPhoenixフレームワークを構築した。
この動きに基づく自己回帰フレームワークでは、意味的反射を粗い粒度の運動指示調整に変換するために、MLLMを用いた2プロセスの動作調整機構から始める。
この動作指示を利用して、ロボット動作の微粒化を導くため、高頻度ロボット動作補正のための視覚的観察を統合するために、マルチタスクモーション条件拡散ポリシーを提案する。
これら2つのモデルを組み合わせることで、低レベルな操作ポリシーからMLLM駆動動作調整モデルに一般化能力の需要を移し、精密できめ細かいロボット動作補正を容易にすることができる。
このフレームワークを利用することで、動的環境との相互作用からモデルの性能を自動改善する生涯学習手法をさらに発展させる。
RoboMimicシミュレーションと実世界のシナリオの両方で実施された実験は、様々な操作タスクにおいて、我々のフレームワークのより優れた一般化と堅牢性を示す。
私たちのコードは \href{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework}{https://github.com/GeWu-Lab/Motion-based-Self-Reflection-Framework} でリリースされています。
関連論文リスト
- Trajectory Adaptation using Large Language Models [0.8704964543257245]
新しい状況に応じた人間の指示に基づくロボット軌道の適応は、より直感的でスケーラブルな人間とロボットの相互作用を実現するために不可欠である。
本研究は,市販の移動プランナが生成する汎用ロボット軌道に適応する柔軟な言語ベースのフレームワークを提案する。
我々は、事前学習されたLLMを用いて、高密度ロボット操作のポリシーとしてコードを生成することにより、軌道方向の経路を適応させる。
論文 参考訳(メタデータ) (2025-04-17T08:48:23Z) - RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Guided Decoding for Robot On-line Motion Generation and Adaption [44.959409835754634]
本稿では,ロボットアームに高い自由度を持つ新たな動作生成手法を提案する。
本研究では,実演として使用する擬似軌道の大規模データセットに基づいて,条件付き変分オートエンコーダに基づくトランスフォーマーアーキテクチャを訓練する。
本モデルでは, 異なる初期点と目標点からの運動をうまく生成し, 異なるロボットプラットフォームを横断する複雑なタスクをナビゲートする軌道を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:32:27Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Causal Policy Gradient for Whole-Body Mobile Manipulation [39.3461626518495]
我々は、典型的なMoMaタスクのポリシーをトレーニングする新しい強化学習フレームワークであるCausal MoMaを紹介する。
異なるタスクを対象とした3種類の模擬ロボットにおけるCausal MoMaの性能評価を行った。
論文 参考訳(メタデータ) (2023-05-04T23:23:47Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated
Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。
本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文 参考訳(メタデータ) (2021-11-07T02:31:09Z) - ReLMoGen: Leveraging Motion Generation in Reinforcement Learning for
Mobile Manipulation [99.2543521972137]
ReLMoGenは、サブゴールを予測するための学習されたポリシーと、これらのサブゴールに到達するために必要な動作を計画し実行するためのモーションジェネレータを組み合わせたフレームワークである。
本手法は,フォトリアリスティック・シミュレーション環境における7つのロボットタスクの多種多様なセットをベンチマークする。
ReLMoGenは、テスト時に異なるモーションジェネレータ間で顕著な転送可能性を示し、実際のロボットに転送する大きな可能性を示している。
論文 参考訳(メタデータ) (2020-08-18T08:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。