Fugu-MT 論文翻訳(概要): Learning Universal Policies via Text-Guided Video Generation

論文の概要: Learning Universal Policies via Text-Guided Video Generation

arxiv url: http://arxiv.org/abs/2302.00111v1
Date: Tue, 31 Jan 2023 21:28:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 18:19:58.863829
Title: Learning Universal Policies via Text-Guided Video Generation
Title（参考訳）: テキスト誘導ビデオ生成によるユニバーサルポリシーの学習
Authors: Yilun Dai, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum, Josh Tenenbaum, Dale Schuurmans, Pieter Abbeel
Abstract要約: 人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
参考スコア（独自算出の注目度）: 159.45327669642754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A goal of artificial intelligence is to construct an agent that can solve a wide variety of tasks. Recent progress in text-guided image synthesis has yielded models with an impressive ability to generate complex novel images, exhibiting combinatorial generalization across domains. Motivated by this success, we investigate whether such tools can be used to construct more general-purpose agents. Specifically, we cast the sequential decision making problem as a text-conditioned video generation problem, where, given a text-encoded specification of a desired goal, a planner synthesizes a set of future frames depicting its planned actions in the future, after which control actions are extracted from the generated video. By leveraging text as the underlying goal specification, we are able to naturally and combinatorially generalize to novel goals. The proposed policy-as-video formulation can further represent environments with different state and action spaces in a unified space of images, which, for example, enables learning and generalization across a variety of robot manipulation tasks. Finally, by leveraging pretrained language embeddings and widely available videos from the internet, the approach enables knowledge transfer through predicting highly realistic video plans for real robots.
Abstract（参考訳）: 人工知能の目標は、さまざまなタスクを解決できるエージェントを構築することである。テキスト誘導画像合成の最近の進歩は、複雑な新しい画像を生成する能力を持つ印象的なモデルを生み出した。この成功に動機づけられたツールが、より汎用的なエージェントを構築するのに使えるかどうかを調査した。具体的には、所望のゴールのテキスト符号化仕様を前提として、計画者は、将来計画されたアクションを記述した将来のフレームを合成し、生成したビデオから制御アクションを抽出する、テキスト条件付きビデオ生成問題としてシーケンシャル意思決定問題を論じる。テキストを基礎となる目標仕様として活用することにより、自然かつ組合せ的に新しい目標に一般化することができる。提案するポリシ・アズ・ビデオの定式化は,画像の統一空間における状態と動作空間の異なる環境を,例えば様々なロボット操作タスクにおける学習と一般化を可能にする。最後に、事前訓練された言語埋め込みとインターネットから広く利用可能なビデオを活用することで、実際のロボットに対して非常に現実的なビデオプランを予測することによって、知識伝達を可能にする。

関連論文リスト

VideoVLA: Video Generators Can Be Generalizable Robot Manipulators [86.70243911696616]
ロボット操作の一般化は、オープンワールド環境におけるロボットの展開に不可欠である。本稿では,大容量ビデオ生成モデルをロボットVLAマニピュレータに変換する可能性を探る,シンプルなアプローチであるVideoVLAを提案する。
論文参考訳（メタデータ） (2025-12-07T18:57:15Z)
Programmatic Video Prediction Using Large Language Models [21.11346129620144]
ProgGenは、ニューロシンボリックで人間の解釈可能な状態のセットを使用して、ビデオのダイナミックスを表現する。提案手法は,2つの挑戦環境における映像フレーム予測の課題において,競合する手法よりも優れていた。
論文参考訳（メタデータ） (2025-05-20T22:17:47Z)
Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文参考訳（メタデータ） (2025-02-17T10:46:47Z)
UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文参考訳（メタデータ） (2024-12-10T18:59:55Z)
Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts [21.249837293326497]
一般的な報酬機能は、ロボットの強化学習と計画の中心である。本稿では,ロバストな一般化を伴う映像言語モデルを言語条件の報酬関数に変換する。本モデルは,ロボット計画と強化学習のための新しい環境と新しい指示に対する優れた一般化を示す。
論文参考訳（メタデータ） (2024-07-20T13:22:59Z)
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation [49.03287909942888]
本研究では,与えられたタスクの人間による実演の映像拡散モデルを微調整するビジュモータポリシー学習フレームワークを提案する。我々は,新しいシーンの画像に条件付きタスクの実行例を生成し,この合成された実行を直接使用してロボットを制御する。
論文参考訳（メタデータ） (2024-06-24T17:59:45Z)
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文参考訳（メタデータ） (2024-05-26T23:56:45Z)
OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文参考訳（メタデータ） (2024-03-26T17:59:24Z)
Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文参考訳（メタデータ） (2023-10-16T17:48:45Z)
Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-10-12T17:59:23Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
Video Generation from Text Employing Latent Path Construction for Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文参考訳（メタデータ） (2021-07-29T06:28:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。