論文の概要: This&That: Language-Gesture Controlled Video Generation for Robot Planning
- arxiv url: http://arxiv.org/abs/2407.05530v1
- Date: Mon, 8 Jul 2024 00:28:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:29:37.341232
- Title: This&That: Language-Gesture Controlled Video Generation for Robot Planning
- Title(参考訳): This&That:ロボット計画のための言語ジェスチャー制御ビデオ生成
- Authors: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park,
- Abstract要約: This&Thatは、幅広いタスクをコミュニケーションし、計画し、実行するためのロボット学習手法である。
ビデオベースプランニングにおける基本的な課題として,1) 簡単な指示によるあいまいなタスクコミュニケーション,2) ユーザの意図を尊重する制御可能なビデオ生成,3) 視覚的プランニングをロボット行動に変換すること,の3つがあげられる。
This&That is demonstrated the state-of-the-art effective in addressing the three challenges and justify the use of video generation as a intermediate representation for generalizable task planning and execution。
- 参考スコア(独自算出の注目度): 14.60108861767878
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a robot learning method for communicating, planning, and executing a wide range of tasks, dubbed This&That. We achieve robot planning for general tasks by leveraging the power of video generative models trained on internet-scale data containing rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intents, and 3) translating visual planning into robot actions. We propose language-gesture conditioning to generate videos, which is both simpler and clearer than existing language-only methods, especially in complex and uncertain environments. We then suggest a behavioral cloning design that seamlessly incorporates the video plans. This&That demonstrates state-of-the-art effectiveness in addressing the above three challenges, and justifies the use of video generation as an intermediate representation for generalizable task planning and execution. Project website: https://cfeng16.github.io/this-and-that/.
- Abstract(参考訳): 本稿では,これとよばれる幅広いタスクをコミュニケーションし,計画し,実行するためのロボット学習手法を提案する。
我々は,リッチな物理・セマンティックコンテキストを含むインターネット規模のデータに基づいて訓練された映像生成モデルのパワーを活用することで,一般的なタスクのためのロボット計画を実現する。
本研究では,ビデオベースプランニングにおける3つの基本的な課題に取り組む。
1)簡単な指示によるあいまいなタスクコミュニケーション。
2【ユーザ意図を尊重する制御可能なビデオ生成】
3)視覚計画のロボット行動への変換
本稿では,特に複雑で不確実な環境で,既存の言語のみの手法よりもシンプルで明瞭なビデオを生成するための言語位置条件を提案する。
次に、ビデオプランをシームレスに組み込んだ行動クローン設計を提案する。
This&That is demonstrated the state-of-the-art effective in addressing the three challenges and justify the use of video generation as a intermediate representation for generalizable task planning and execution。
プロジェクトWebサイト: https://cfeng16.github.io/this-and-that/。
関連論文リスト
- Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。