論文の概要: World Value Functions: Knowledge Representation for Multitask
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.08827v1
- Date: Wed, 18 May 2022 09:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 13:27:40.821008
- Title: World Value Functions: Knowledge Representation for Multitask
Reinforcement Learning
- Title(参考訳): 世界価値関数:マルチタスク強化学習のための知識表現
- Authors: Geraud Nangue Tasse, Steven James, Benjamin Rosman
- Abstract要約: 本稿では,世界の熟達度を持つ一般値関数の一種である世界値関数(WVF)を提案する。
我々はエージェントに、そのエージェントが終端遷移を経験するすべての世界状態として定義された内部ゴール空間を割り当てる。
同じ世界のタスクに対して、WVFを学習した事前訓練されたエージェントは、その報酬から直接新しいタスクのポリシーと価値関数を推測できることを示す。
- 参考スコア(独自算出の注目度): 14.731788603429774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An open problem in artificial intelligence is how to learn and represent
knowledge that is sufficient for a general agent that needs to solve multiple
tasks in a given world. In this work we propose world value functions (WVFs),
which are a type of general value function with mastery of the world - they
represent not only how to solve a given task, but also how to solve any other
goal-reaching task. To achieve this, we equip the agent with an internal goal
space defined as all the world states where it experiences a terminal
transition - a task outcome. The agent can then modify task rewards to define
its own reward function, which provably drives it to learn how to achieve all
achievable internal goals, and the value of doing so in the current task. We
demonstrate a number of benefits of WVFs. When the agent's internal goal space
is the entire state space, we demonstrate that the transition function can be
inferred from the learned WVF, which allows the agent to plan using learned
value functions. Additionally, we show that for tasks in the same world, a
pretrained agent that has learned any WVF can then infer the policy and value
function for any new task directly from its rewards. Finally, an important
property for long-lived agents is the ability to reuse existing knowledge to
solve new tasks. Using WVFs as the knowledge representation for learned tasks,
we show that an agent is able to solve their logical combination zero-shot,
resulting in a combinatorially increasing number of skills throughout their
lifetime.
- Abstract(参考訳): 人工知能におけるオープンな問題は、特定の世界で複数のタスクを解決する必要がある一般的なエージェントにとって十分な知識を学習し、表現する方法である。
本研究は,世界価値関数(WVF)を提案する。これは世界の熟達を伴う一般値関数の一種であり,与えられたタスクの解決方法だけでなく,他の目標達成タスクの解決方法も表している。
これを実現するため、エージェントに、終端遷移(タスク結果)を経験するすべての世界状態として定義された内部目標空間を割り当てる。
エージェントはタスク報酬を修正して、自身の報酬関数を定義することで、達成可能なすべての内部目標の達成方法と、現在のタスクでそれを行う価値を確実に学ぶことができる。
WVFの利点をいくつか示します。
エージェントの内部ゴール空間が状態空間全体である場合、学習されたWVFから遷移関数を推定できることを示し、学習した値関数を用いてエージェントを計画することができる。
さらに、同一世界のタスクに対して、任意のWVFを学習した事前訓練されたエージェントが、その報酬から直接新しいタスクのポリシーと価値関数を推測できることを示す。
最後に、長期的なエージェントにとって重要な特性は、新しいタスクを解決するために既存の知識を再利用できることです。
学習課題の知識表現としてWVFを用いることで、エージェントはゼロショットの論理的組み合わせを解くことができ、結果として、生涯を通して組み合わせてスキルの数が増加することを示す。
関連論文リスト
- Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。
このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。
Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文 参考訳(メタデータ) (2025-02-03T17:45:46Z) - Visual Grounding for Object-Level Generalization in Reinforcement Learning [35.39214541324909]
自然言語命令に従うエージェントにとって、一般化は重要な課題である。
視覚言語モデル(VLM)を用いて視覚的グラウンド化を行い,その知識を強化学習に伝達する。
我々の本質的な報酬は、挑戦的なスキル学習のパフォーマンスを著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-08-04T06:34:24Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Task Aware Dreamer for Task Generalization in Reinforcement Learning [31.364276322513447]
一般的な世界モデルのトレーニングは、タスクにおいて同様の構造を活用でき、より一般化可能なエージェントのトレーニングに役立つことを示す。
本稿では,タスク間の遅延特性を識別するために,報酬インフォームド機能を統合するタスク・アウェア・ドリーマー (TAD) という新しい手法を提案する。
画像ベースのタスクと状態ベースのタスクの両方の実験は、TADが異なるタスクを同時に処理するパフォーマンスを大幅に改善できることを示している。
論文 参考訳(メタデータ) (2023-03-09T08:04:16Z) - World Value Functions: Knowledge Representation for Learning and
Planning [14.731788603429774]
本稿では、ゴール指向の一般値関数の一種である世界値関数(WVF)を提案する。
WVFは、与えられたタスクだけでなく、エージェントの環境における他の目標達成タスクの解決方法を表す。
WVFは通常の値関数よりも高速に学習でき、環境のダイナミクスを推測する能力は学習と計画の手法の統合に利用できることを示す。
論文 参考訳(メタデータ) (2022-06-23T18:49:54Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - A Boolean Task Algebra for Reinforcement Learning [14.731788603429774]
タスクの論理的構成をブール代数として定式化する。
目標志向の値関数を学習することで,エージェントが新たなタスクを学習せずに解決できることが示される。
論文 参考訳(メタデータ) (2020-01-06T04:46:25Z) - Universal Successor Features for Transfer Reinforcement Learning [77.27304854836645]
環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
論文 参考訳(メタデータ) (2020-01-05T03:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。