論文の概要: RLZero: Direct Policy Inference from Language Without In-Domain Supervision
- arxiv url: http://arxiv.org/abs/2412.05718v2
- Date: Sun, 01 Jun 2025 15:15:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.915134
- Title: RLZero: Direct Policy Inference from Language Without In-Domain Supervision
- Title(参考訳): RLZero: ドメイン内スーパービジョンのない言語から直接のポリシー推論
- Authors: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum,
- Abstract要約: 自然言語は、強化学習エージェントを指示する直感的な代替手段を提供する。
本稿では、未ラベルのオフラインインタラクションを用いてトレーニングされた事前学習されたRLエージェントを用いた新しいアプローチを提案する。
我々は、RLのコンポーネントが、クロスエボダイドビデオからゼロショットのポリシーを生成するために使用できることを示す。
- 参考スコア(独自算出の注目度): 40.046873614139464
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reward hypothesis states that all goals and purposes can be understood as the maximization of a received scalar reward signal. However, in practice, defining such a reward signal is notoriously difficult, as humans are often unable to predict the optimal behavior corresponding to a reward function. Natural language offers an intuitive alternative for instructing reinforcement learning (RL) agents, yet previous language-conditioned approaches either require costly supervision or test-time training given a language instruction. In this work, we present a new approach that uses a pretrained RL agent trained using only unlabeled, offline interactions--without task-specific supervision or labeled trajectories--to get zero-shot test-time policy inference from arbitrary natural language instructions. We introduce a framework comprising three steps: imagine, project, and imitate. First, the agent imagines a sequence of observations corresponding to the provided language description using video generative models. Next, these imagined observations are projected into the target environment domain. Finally, an agent pretrained in the target environment with unsupervised RL instantly imitates the projected observation sequence through a closed-form solution. To the best of our knowledge, our method, RLZero, is the first approach to show direct language-to-behavior generation abilities on a variety of tasks and environments without any in-domain supervision. We further show that components of RLZero can be used to generate policies zero-shot from cross-embodied videos, such as those available on YouTube, even for complex embodiments like humanoids.
- Abstract(参考訳): 報酬仮説は、全ての目標と目的を、受信されたスカラー報酬信号の最大化として理解することができると述べている。
しかし、実際には、報酬関数に対応する最適な振舞いを人間が予測できないため、そのような報酬信号を定義するのは非常に難しい。
自然言語は強化学習(RL)エージェントを指示する直感的な代替手段を提供するが、以前の言語条件のアプローチでは、言語命令が与えられた場合、高価な監督やテストタイムのトレーニングが必要になる。
本研究では、タスク固有の監督やラベル付きトラジェクトリを使わずに、未ラベルのオフラインインタラクションのみを用いてトレーニングされた事前訓練されたRLエージェントを使用して、任意の自然言語命令からゼロショットテスト時ポリシー推論を行う新しいアプローチを提案する。
想像、プロジェクト、模倣の3つのステップからなるフレームワークを紹介します。
まず、映像生成モデルを用いて、提供された言語記述に対応する一連の観察を想像する。
次に、これらの想像された観測を対象の環境領域に投影する。
最後に、教師なしRLで予め訓練されたエージェントは、クローズドフォーム溶液を介して投影された観測シーケンスを即座に模倣する。
我々の知る限りでは、我々の手法であるRLZeroは、ドメイン内監督なしに様々なタスクや環境上で直接言語から行動生成能力を示す最初のアプローチである。
さらに、RLZeroのコンポーネントは、YouTubeで利用できるような、人体横断ビデオからゼロショットのポリシーを生成するために、さらにはヒューマノイドのような複雑な実施のためにも使用できることを示す。
関連論文リスト
- Text-Aware Diffusion for Policy Learning [8.32790576855495]
本研究では、事前訓練された凍結されたテキスト条件付き拡散モデルを用いて、高密度ゼロショット報酬信号をテキスト整合ポリシー学習に利用する、政策学習用テキスト認識拡散(TADPoLe)を提案する。
TADPoLe は,Humanoid と Dog の両環境において,自然言語によって規定される新たな目標達成と連続的な移動行動の政策を学習可能であることを示す。
論文 参考訳(メタデータ) (2024-07-02T03:08:20Z) - Unsupervised Zero-Shot Reinforcement Learning via Functional Reward
Encodings [107.1837163643886]
本稿では、このゼロショットRL問題に対する汎用的でスケーラブルな解として、関数型報酬符号化(FRE)を提案する。
我々の主な考え方は、任意のタスクの関数表現を、状態逆サンプルを符号化することで学習することである。
多様なランダムな非教師付き報酬関数で訓練されたFREエージェントが、新しいタスクを解くために一般化できることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-27T01:59:02Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - GRILL: Grounded Vision-language Pre-training via Aligning Text and Image
Regions [92.96783800362886]
未知のタスクへの一般化は、少数の学習者が多様なタスクにおいてより優れたゼロ/フェーショットのパフォーマンスを達成できる重要な能力である。
GRILLは視覚的質問応答やキャプション,接地タスクなどの多様なタスクに,ほとんど,あるいはごく少数のトレーニングインスタンスで一般化可能な,新しいVLモデルである。
論文 参考訳(メタデータ) (2023-05-24T03:33:21Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Distilling Internet-Scale Vision-Language Models into Embodied Agents [24.71298634838615]
本稿では,事前学習型視覚言語モデル (VLM) を用いてエンボディエージェントの監視を行う。
モデル蒸留と後視体験リプレイ(HER)のアイデアを組み合わせて,エージェントの振る舞いを記述する言語を遡及的に生成する。
我々の研究は、インターネットスケールのVLMを使うための新しい効果的な方法を概説し、そのようなモデルによって獲得された汎用的な言語基盤を再利用して、エンボディエージェントにタスク関連グラウンドを指導する。
論文 参考訳(メタデータ) (2023-01-29T18:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。