論文の概要: Multi-step manipulation task and motion planning guided by video demonstration
- arxiv url: http://arxiv.org/abs/2505.08949v1
- Date: Tue, 13 May 2025 20:27:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.292073
- Title: Multi-step manipulation task and motion planning guided by video demonstration
- Title(参考訳): デモ映像によるマルチステップ操作タスクと動作計画
- Authors: Kateryna Zorina, David Kovar, Mederic Fourmy, Florent Lamiraux, Nicolas Mansard, Justin Carpentier, Josef Sivic, Vladimir Petrik,
- Abstract要約: この研究は、ロボット工学における複雑な多段階のタスク・アンド・モーション計画タスクを解決するために、指導ビデオを活用することを目的としている。
本稿では,RRT(Rapidly-Exploring Random Tree)プランナの拡張について提案する。
我々は,Franka Emika PandaやKUKA KMR iiwaなどのロボットに対して,計画アルゴリズムの有効性を示す。
- 参考スコア(独自算出の注目度): 33.01481150518225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work aims to leverage instructional video to solve complex multi-step task-and-motion planning tasks in robotics. Towards this goal, we propose an extension of the well-established Rapidly-Exploring Random Tree (RRT) planner, which simultaneously grows multiple trees around grasp and release states extracted from the guiding video. Our key novelty lies in combining contact states and 3D object poses extracted from the guiding video with a traditional planning algorithm that allows us to solve tasks with sequential dependencies, for example, if an object needs to be placed at a specific location to be grasped later. We also investigate the generalization capabilities of our approach to go beyond the scene depicted in the instructional video. To demonstrate the benefits of the proposed video-guided planning approach, we design a new benchmark with three challenging tasks: (I) 3D re-arrangement of multiple objects between a table and a shelf, (ii) multi-step transfer of an object through a tunnel, and (iii) transferring objects using a tray similar to a waiter transfers dishes. We demonstrate the effectiveness of our planning algorithm on several robots, including the Franka Emika Panda and the KUKA KMR iiwa. For a seamless transfer of the obtained plans to the real robot, we develop a trajectory refinement approach formulated as an optimal control problem (OCP).
- Abstract(参考訳): この研究は、ロボット工学における複雑な多段階のタスク・アンド・モーション計画タスクを解決するために、指導ビデオを活用することを目的としている。
そこで本研究では,RRT(Rapidly-Exploring Random Tree)プランナの拡張を提案する。
私たちのキーとなる新規性は、ガイドビデオから抽出した接触状態と3Dオブジェクトのポーズを従来の計画アルゴリズムと組み合わせることです。
また,本手法の一般化能力についても検討した。
提案手法の利点を実証するため, (I) テーブルと棚の間の複数のオブジェクトを3次元再構成する3つの課題のある新しいベンチマークを設計した。
二 トンネルを通る物体の多段移動、及び
三 ウェイターと同様の皿で物を運ぶこと。
我々は,Franka Emika PandaやKUKA KMR iiwaなどのロボットに対して,計画アルゴリズムの有効性を示す。
得られた計画を実ロボットにシームレスに転送するために,最適制御問題 (OCP) として定式化された軌道改善手法を開発した。
関連論文リスト
- Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning [103.24305074625106]
そこで本研究では,暗黙的な指示から意図した活動を推論し,ステップ間の経路や計画を伴うステップに分解する,新しい3Dタスクである3Dアクティビティ推論と計画を提案する。
まずReasonPlan3Dという,多種多様な3Dシーンを多種多様な暗黙の指示でカバーする大規模ベンチマークを構築した。
第二に、複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を導入する新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2025-03-17T09:33:58Z) - A Task and Motion Planning Framework Using Iteratively Deepened AND/OR Graph Networks [3.635602838654497]
本稿では,AND/ORグラフネットワークに基づくタスクと動作計画の統合手法を提案する。
タスク・アンド・モーション・プランニング問題(TAMP)の異なるクラスの実装に活用する。
このアプローチは、シミュレーションと実際のデュアルアームロボットマニピュレータ、すなわちRethink RoboticsのBaxterで評価され、検証されている。
論文 参考訳(メタデータ) (2025-03-10T17:28:22Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - Optimal Integrated Task and Path Planning and Its Application to
Multi-Robot Pickup and Delivery [10.530860023128406]
本稿では,最適なタスクプランナと最適なパスプランナを組み合わせた,汎用的なマルチロボット計画機構を提案する。
統合プランナーは、タスクプランナーとパスプランナーの相互作用を通じて、ロボットに対して最適な衝突のない軌道を生成する。
論文 参考訳(メタデータ) (2024-03-02T17:48:40Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - A Long Horizon Planning Framework for Manipulating Rigid Pointcloud
Objects [25.428781562909606]
本稿では,剛体物体の操作に伴う長期計画問題の解決のための枠組みを提案する。
提案手法はオブジェクトサブゴールの空間における計画であり,ロボットとオブジェクトの相互作用のダイナミクスに関する推論からプランナーを解放する。
論文 参考訳(メタデータ) (2020-11-16T18:59:33Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。