論文の概要: Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2409.07341v1
- Date: Wed, 11 Sep 2024 15:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:03:35.651166
- Title: Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence
- Title(参考訳): Online Decision MetaMorphFormer: ユニバーサル・エンボディード・インテリジェンスのためのCasual Transformer-based Reinforcement Learning Framework
- Authors: Luo Ji, Runji Lin,
- Abstract要約: Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 2.890656584329591
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive artificial intelligence in the motion control field is an interesting topic, especially when universal knowledge is adaptive to multiple tasks and universal environments. Despite there being increasing efforts in the field of Reinforcement Learning (RL) with the aid of transformers, most of them might be limited by the offline training pipeline, which prohibits exploration and generalization abilities. To address this limitation, we propose the framework of Online Decision MetaMorphFormer (ODM) which aims to achieve self-awareness, environment recognition, and action planning through a unified model architecture. Motivated by cognitive and behavioral psychology, an ODM agent is able to learn from others, recognize the world, and practice itself based on its own experience. ODM can also be applied to any arbitrary agent with a multi-joint body, located in different environments, and trained with different types of tasks using large-scale pre-trained datasets. Through the use of pre-trained datasets, ODM can quickly warm up and learn the necessary knowledge to perform the desired task, while the target environment continues to reinforce the universal policy. Extensive online experiments as well as few-shot and zero-shot environmental tests are used to verify ODM's performance and generalization ability. The results of our study contribute to the study of general artificial intelligence in embodied and cognitive fields. Code, results, and video examples can be found on the website \url{https://rlodm.github.io/odm/}.
- Abstract(参考訳): モーションコントロール分野における対話型人工知能は、特に普遍的な知識が複数のタスクや普遍的な環境に適応する場合に興味深いトピックである。
トランスフォーマーの助けを借りて強化学習(Reinforcement Learning, RL)分野への取り組みが増えているが、その多くは、探索と一般化の能力を制限するオフライントレーニングパイプラインによって制限されている。
この制限に対処するために,統合モデルアーキテクチャによる自己認識,環境認識,行動計画の実現を目的としたオンライン決定メタモデルフォーマー(ODM)のフレームワークを提案する。
認知心理学や行動心理学に動機づけられたODMエージェントは、他者から学び、世界を認識し、自身の経験に基づいて自分自身を実践することができる。
ODMはまた、異なる環境にある複数の結合体を持つ任意のエージェントにも適用でき、大規模な事前訓練データセットを使用して異なるタイプのタスクでトレーニングすることができる。
事前訓練されたデータセットを使用することで、ODMは素早くウォームアップし、望ましいタスクを実行するために必要な知識を学ぶことができる。
ODMの性能と一般化能力を検証するため、オンライン実験や、数発、ゼロショットの環境試験が広く行われている。
本研究は,具体的・認知的分野における汎用人工知能の研究に寄与する。
コード、結果、ビデオの例は、Webサイト \url{https://rlodm.github.io/odm/} で見ることができる。
関連論文リスト
- Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Zero-shot cross-modal transfer of Reinforcement Learning policies
through a Global Workspace [48.24821328103934]
筆者らは,2つの入力モダリティによって収集された環境情報を活用するために,「グローバルワークスペース」を訓練する。
2つの異なる環境とタスクにおいて、入力モダリティ間のゼロショット・クロスモーダル転送を行うモデルの能力を明らかにする。
論文 参考訳(メタデータ) (2024-03-07T15:35:29Z) - Adaptive action supervision in reinforcement learning from real-world
multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。
実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文 参考訳(メタデータ) (2023-05-22T13:33:37Z) - ArK: Augmented Reality with Knowledge Interactive Emergent Ability [115.72679420999535]
基礎モデルから新しいドメインへの知識記憶の伝達を学習する無限エージェントを開発する。
私たちのアプローチの核心は、Augmented Reality with Knowledge Inference Interaction (ArK)と呼ばれる新しいメカニズムである。
我々のArKアプローチは,大規模な基礎モデルと組み合わせることで,生成された2D/3Dシーンの品質を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-05-01T17:57:01Z) - On Realization of Intelligent Decision-Making in the Real World: A
Foundation Decision Model Perspective [54.38373782121503]
FDM(Foundation Decision Model)は、様々な意思決定タスクをシーケンスデコーディングタスクとして定式化することで開発することができる。
本稿では、FDMの実装であるDigitalBrain(DB1)を13億のパラメータで実証し、870のタスクで人間レベルのパフォーマンスを達成するケーススタディを提案する。
論文 参考訳(メタデータ) (2022-12-24T06:16:45Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。