論文の概要: Text-Aware Diffusion for Policy Learning
- arxiv url: http://arxiv.org/abs/2407.01903v1
- Date: Tue, 2 Jul 2024 03:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 17:03:34.729068
- Title: Text-Aware Diffusion for Policy Learning
- Title(参考訳): 政策学習のためのテキスト認識拡散
- Authors: Calvin Luo, Mandy He, Zilai Zeng, Chen Sun,
- Abstract要約: テキスト対応政策学習のための高密度ゼロショット報酬信号を計算するために,TADPoLe(Text-Aware Diffusion for Policy Learning)を提案する。
実験では,TADPoLeが新たな目標達成行動と連続移動行動のポリシーを学習できることを実証した。
行動はゼロショットで学習され、基礎的な報酬や専門家によるデモンストレーションは行われず、人間の評価により質的にも自然である。
- 参考スコア(独自算出の注目度): 8.32790576855495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training an agent to achieve particular goals or perform desired behaviors is often accomplished through reinforcement learning, especially in the absence of expert demonstrations. However, supporting novel goals or behaviors through reinforcement learning requires the ad-hoc design of appropriate reward functions, which quickly becomes intractable. To address this challenge, we propose Text-Aware Diffusion for Policy Learning (TADPoLe), which uses a pretrained, frozen text-conditioned diffusion model to compute dense zero-shot reward signals for text-aligned policy learning. We hypothesize that large-scale pretrained generative models encode rich priors that can supervise a policy to behave not only in a text-aligned manner, but also in alignment with a notion of naturalness summarized from internet-scale training data. In our experiments, we demonstrate that TADPoLe is able to learn policies for novel goal-achievement and continuous locomotion behaviors specified by natural language, in both Humanoid and Dog environments. The behaviors are learned zero-shot without ground-truth rewards or expert demonstrations, and are qualitatively more natural according to human evaluation. We further show that TADPoLe performs competitively when applied to robotic manipulation tasks in the Meta-World environment.
- Abstract(参考訳): 特定の目標を達成するためにエージェントを訓練したり、望ましい行動を行うために、特に専門家のデモンストレーションが欠如している場合、強化学習によってしばしば達成される。
しかし、強化学習によって新しい目標や行動を支援するには、適切な報酬関数のアドホックな設計が必要であり、それはすぐに難解になる。
この課題に対処するため,本研究では,事前学習された凍結されたテキスト条件付き拡散モデルを用いて,高密度ゼロショット報酬信号をテキスト整合ポリシー学習のために計算する,TADPoLe(Text-Aware Diffusion for Policy Learning)を提案する。
大規模な事前学習型生成モデルは、テキスト整合性だけでなく、インターネット規模の学習データから要約した自然性の概念に則って行動する政策を監督できるような、豊富な事前学習を符号化する。
実験では,Humanoid と Dog の両環境において,TADPoLe が,自然言語によって規定される新たな目標達成と連続的な移動行動のポリシーを学習できることを実証した。
行動はゼロショットで学習され、基礎的な報酬や専門家によるデモンストレーションは行われず、人間の評価により質的にも自然である。
さらに,メタワールド環境におけるロボット操作タスクに適用した場合,TADPoLeが競争力を発揮することを示す。
関連論文リスト
- Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Imitator Learning: Achieve Out-of-the-Box Imitation Ability in Variable
Environments [45.213059639254475]
我々は、模倣学習(ItorL)と呼ばれる新しいトピックを提案する。
これは、非常に限られた専門家のデモンストレーションに基づいて模倣ポリシーを再構築できる模倣モジュールを導出することを目的としている。
自律的な模倣ポリシー構築のために、我々は模倣ポリシーのためのデモベースアテンションアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-10-09T13:35:28Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Contrastive Language, Action, and State Pre-training for Robot Learning [1.1000499414131326]
本稿では,ロボット学習における下流作業を支援するために,言語,行動,状態情報を共有埋め込み空間に統一する手法を提案する。
提案手法であるCLASP(Contrastive Language, Action, and State Pre-training)は,CLIPの定式化を拡張し,分散学習を取り入れ,振る舞いテキストアライメントにおける固有の複雑さと一対多の関係を捉える。
本手法は,ゼロショットテキストビヘイビア検索,未知のロボット動作のキャプション,言語条件の強化学習に先立って動作を学習する,といった下流作業に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-21T07:19:33Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Human Instruction-Following with Deep Reinforcement Learning via
Transfer-Learning from Text [12.88819706338837]
近年の研究では、ニューラルネットワークベースのエージェントが強化学習によって訓練され、シミュレートされた世界で言語のようなコマンドを実行することが説明されている。
本稿では,人間の指示に頑健な深層RLを用いた指示追従エージェントの訓練方法を提案する。
論文 参考訳(メタデータ) (2020-05-19T12:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。