論文の概要: World Value Functions: Knowledge Representation for Learning and
Planning
- arxiv url: http://arxiv.org/abs/2206.11940v1
- Date: Thu, 23 Jun 2022 18:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 12:45:53.231302
- Title: World Value Functions: Knowledge Representation for Learning and
Planning
- Title(参考訳): 世界価値関数:学習と計画のための知識表現
- Authors: Geraud Nangue Tasse, Benjamin Rosman, Steven James
- Abstract要約: 本稿では、ゴール指向の一般値関数の一種である世界値関数(WVF)を提案する。
WVFは、与えられたタスクだけでなく、エージェントの環境における他の目標達成タスクの解決方法を表す。
WVFは通常の値関数よりも高速に学習でき、環境のダイナミクスを推測する能力は学習と計画の手法の統合に利用できることを示す。
- 参考スコア(独自算出の注目度): 14.731788603429774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose world value functions (WVFs), a type of goal-oriented general
value function that represents how to solve not just a given task, but any
other goal-reaching task in an agent's environment. This is achieved by
equipping an agent with an internal goal space defined as all the world states
where it experiences a terminal transition. The agent can then modify the
standard task rewards to define its own reward function, which provably drives
it to learn how to achieve all reachable internal goals, and the value of doing
so in the current task. We demonstrate two key benefits of WVFs in the context
of learning and planning. In particular, given a learned WVF, an agent can
compute the optimal policy in a new task by simply estimating the task's reward
function. Furthermore, we show that WVFs also implicitly encode the transition
dynamics of the environment, and so can be used to perform planning.
Experimental results show that WVFs can be learned faster than regular value
functions, while their ability to infer the environment's dynamics can be used
to integrate learning and planning methods to further improve sample
efficiency.
- Abstract(参考訳): 我々は,与えられたタスクだけでなく,エージェントの環境における他の目標達成タスクの解決方法を表す,ゴール指向の汎用値関数である世界価値関数(WVF)を提案する。
これはエージェントが終端遷移を経験するすべての世界状態として定義された内部ゴール空間を備えることで達成される。
エージェントは、通常のタスク報酬を変更して、独自の報酬関数を定義することで、到達可能なすべての内部目標を達成する方法と、現在のタスクでそれを行う価値を学習することが可能になる。
学習と計画の文脈におけるWVFの2つの重要な利点を示す。
特に学習したWVFが与えられた場合、エージェントはタスクの報酬関数を単純に推定することで、新しいタスクで最適なポリシーを計算できる。
さらに,WVFは環境の遷移ダイナミクスを暗黙的にエンコードするので,計画の実行にも利用できることを示す。
実験結果から,WVFは通常の値関数よりも高速に学習でき,環境のダイナミクスを推測する能力は,学習と計画の手法を統合してサンプル効率をさらに向上させることができることがわかった。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Task Aware Dreamer for Task Generalization in Reinforcement Learning [32.93706056123124]
一般的な世界モデルのトレーニングは、タスクにおいて同様の構造を活用でき、より一般化可能なエージェントのトレーニングに役立つことを示す。
本稿では,タスク間の遅延特性を識別するために,報酬インフォームド機能を統合するタスク・アウェア・ドリーマー (TAD) という新しい手法を提案する。
画像ベースのタスクと状態ベースのタスクの両方の実験は、TADが異なるタスクを同時に処理するパフォーマンスを大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-03-09T08:04:16Z) - Toward Efficient Automated Feature Engineering [27.47868891738917]
自動特徴工学(AFE)は、下流タスクのための最適な特徴集合を自動生成し、選択することを指す。
現在のAFE手法は、主に生成された機能の有効性の改善に重点を置いているが、大規模展開における低効率の問題を無視している。
強化学習設定に基づいてAFEパイプラインを構築し,各特徴をエージェントに割り当てて特徴変換を行う。
分類タスクと回帰タスクの両方の観点から,36のデータセットに関する総合的な実験を行った。
論文 参考訳(メタデータ) (2022-12-26T13:18:51Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - World Value Functions: Knowledge Representation for Multitask
Reinforcement Learning [14.731788603429774]
本稿では,世界の熟達度を持つ一般値関数の一種である世界値関数(WVF)を提案する。
我々はエージェントに、そのエージェントが終端遷移を経験するすべての世界状態として定義された内部ゴール空間を割り当てる。
同じ世界のタスクに対して、WVFを学習した事前訓練されたエージェントは、その報酬から直接新しいタスクのポリシーと価値関数を推測できることを示す。
論文 参考訳(メタデータ) (2022-05-18T09:45:14Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Universal Successor Features for Transfer Reinforcement Learning [77.27304854836645]
環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
論文 参考訳(メタデータ) (2020-01-05T03:41:06Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。