論文の概要: Learning Universal Policies via Text-Guided Video Generation
- arxiv url: http://arxiv.org/abs/2302.00111v3
- Date: Mon, 20 Nov 2023 05:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 20:39:10.673149
- Title: Learning Universal Policies via Text-Guided Video Generation
- Title(参考訳): テキスト誘導ビデオ生成によるユニバーサルポリシーの学習
- Authors: Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Joshua B.
Tenenbaum, Dale Schuurmans, Pieter Abbeel
- Abstract要約: 人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 179.6347119101618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A goal of artificial intelligence is to construct an agent that can solve a
wide variety of tasks. Recent progress in text-guided image synthesis has
yielded models with an impressive ability to generate complex novel images,
exhibiting combinatorial generalization across domains. Motivated by this
success, we investigate whether such tools can be used to construct more
general-purpose agents. Specifically, we cast the sequential decision making
problem as a text-conditioned video generation problem, where, given a
text-encoded specification of a desired goal, a planner synthesizes a set of
future frames depicting its planned actions in the future, after which control
actions are extracted from the generated video. By leveraging text as the
underlying goal specification, we are able to naturally and combinatorially
generalize to novel goals. The proposed policy-as-video formulation can further
represent environments with different state and action spaces in a unified
space of images, which, for example, enables learning and generalization across
a variety of robot manipulation tasks. Finally, by leveraging pretrained
language embeddings and widely available videos from the internet, the approach
enables knowledge transfer through predicting highly realistic video plans for
real robots.
- Abstract(参考訳): 人工知能の目標は、さまざまなタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新しい画像を生成する能力を持つ印象的なモデルを生み出した。
この成功に動機づけられたツールが、より汎用的なエージェントを構築するのに使えるかどうかを調査した。
具体的には、所望のゴールのテキスト符号化仕様を前提として、計画者は、将来計画されたアクションを記述した将来のフレームを合成し、生成したビデオから制御アクションを抽出する、テキスト条件付きビデオ生成問題としてシーケンシャル意思決定問題を論じる。
テキストを基礎となる目標仕様として活用することにより、自然かつ組合せ的に新しい目標に一般化することができる。
提案するポリシ・アズ・ビデオの定式化は,画像の統一空間における状態と動作空間の異なる環境を,例えば様々なロボット操作タスクにおける学習と一般化を可能にする。
最後に、事前訓練された言語埋め込みとインターネットから広く利用可能なビデオを活用することで、実際のロボットに対して非常に現実的なビデオプランを予測することによって、知識伝達を可能にする。
関連論文リスト
- Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。
本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。
本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文 参考訳(メタデータ) (2024-07-20T13:22:59Z) - Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。
我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文 参考訳(メタデータ) (2024-06-24T17:59:45Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。