論文の概要: This&That: Language-Gesture Controlled Video Generation for Robot Planning
- arxiv url: http://arxiv.org/abs/2407.05530v2
- Date: Sun, 18 May 2025 04:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.192403
- Title: This&That: Language-Gesture Controlled Video Generation for Robot Planning
- Title(参考訳): This&That:ロボット計画のための言語ジェスチャー制御ビデオ生成
- Authors: Boyang Wang, Nikhil Sridhar, Chao Feng, Mark Van der Merwe, Adam Fishman, Nima Fazeli, Jeong Joon Park,
- Abstract要約: 本稿では,これとよばれる幅広いタスクをコミュニケーションし,計画し,実行するためのロボット学習フレームワークを提案する。
This&Thatは、インターネット規模のデータのトレーニングを通じて、リッチな物理的コンテキストとセマンティックコンテキストを含むビデオ生成モデルを活用することで、一般的なタスクを解決する。
ビデオベースプランニングにおける基本的な課題として,1) 簡単な指示によるあいまいなタスクコミュニケーション,2) ユーザの意図を尊重する制御可能なビデオ生成,3) 視覚的プランをロボット行動に変換する3つの課題がある。
- 参考スコア(独自算出の注目度): 14.60108861767878
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clear, interpretable instructions are invaluable when attempting any complex task. Good instructions help to clarify the task and even anticipate the steps needed to solve it. In this work, we propose a robot learning framework for communicating, planning, and executing a wide range of tasks, dubbed This&That. This&That solves general tasks by leveraging video generative models, which, through training on internet-scale data, contain rich physical and semantic context. In this work, we tackle three fundamental challenges in video-based planning: 1) unambiguous task communication with simple human instructions, 2) controllable video generation that respects user intent, and 3) translating visual plans into robot actions. This&That uses language-gesture conditioning to generate video predictions, as a succinct and unambiguous alternative to existing language-only methods, especially in complex and uncertain environments. These video predictions are then fed into a behavior cloning architecture dubbed Diffusion Video to Action (DiVA), which outperforms prior state-of-the-art behavior cloning and video-based planning methods by substantial margins.
- Abstract(参考訳): 明確な解釈可能な命令は、複雑なタスクを試みようとする際には重要ではない。
優れた指示は、タスクを明確にし、それを解決するために必要なステップを期待するのに役立ちます。
本研究では,これとよばれる幅広いタスクをコミュニケーション,計画,実行するためのロボット学習フレームワークを提案する。
This&Thatは、インターネット規模のデータのトレーニングを通じて、リッチな物理的コンテキストとセマンティックコンテキストを含むビデオ生成モデルを活用することで、一般的なタスクを解決する。
本研究では,ビデオベースプランニングにおける3つの基本的な課題に取り組む。
1)簡単な指示によるあいまいなタスクコミュニケーション。
2【ユーザ意図を尊重する制御可能なビデオ生成】
3)視覚計画をロボット行動に変換する。
This&Thatは、特に複雑で不確実な環境で、既存の言語のみの手法の簡潔で曖昧な代替手段として、ビデオ予測を生成するために、言語ジェスチャー条件を使用する。
これらのビデオ予測は、Diffusion Video to Action(DiVA)と呼ばれる行動クローンアーキテクチャに入力され、従来の最先端の行動クローンやビデオベースの計画手法よりも大幅に向上する。
関連論文リスト
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。