論文の概要: Rationality based Innate-Values-driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.09160v1
- Date: Thu, 14 Nov 2024 03:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:44.699641
- Title: Rationality based Innate-Values-driven Reinforcement Learning
- Title(参考訳): 帰納的価値駆動型強化学習に基づく合理性
- Authors: Qin Yang,
- Abstract要約: 本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。
本稿では,階層型強化学習モデルを提案する。
- 参考スコア(独自算出の注目度): 1.8220718426493654
- License:
- Abstract: Innate values describe agents' intrinsic motivations, which reflect their inherent interests and preferences to pursue goals and drive them to develop diverse skills satisfying their various needs. The essence of reinforcement learning (RL) is learning from interaction based on reward-driven behaviors, much like natural agents. It is an excellent model to describe the innate-values-driven (IV) behaviors of AI agents. Especially developing the awareness of the AI agent through balancing internal and external utilities based on its needs in different tasks is a crucial problem for individuals learning to support AI agents integrating human society with safety and harmony in the long term. This paper proposes a hierarchical compound intrinsic value reinforcement learning model -- innate-values-driven reinforcement learning termed IVRL to describe the complex behaviors of AI agents' interaction. We formulated the IVRL model and proposed two IVRL models: DQN and A2C. By comparing them with benchmark algorithms such as DQN, DDQN, A2C, and PPO in the Role-Playing Game (RPG) reinforcement learning test platform VIZDoom, we demonstrated that rationally organizing various individual needs can effectively achieve better performance.
- Abstract(参考訳): 本来の価値観はエージェントの本質的なモチベーションを表しており、エージェントが目的を追求し、様々なニーズを満たす多様なスキルを身につけるために、その本来の関心や好みを反映している。
強化学習(RL)の本質は、自然エージェントのように報酬駆動行動に基づく相互作用から学ぶことである。
これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。
特に、異なるタスクにおけるニーズに基づいて内部ユーティリティと外部ユーティリティのバランスをとることで、AIエージェントの認識を向上させることは、人間の社会と安全と調和を長期的に統合するAIエージェントを支援することを学ぶ個人にとって重要な問題である。
本稿では,AIエージェントの相互作用の複雑な振る舞いを記述するために,固有値駆動型強化学習(IVRL)と呼ばれる階層型複合固有値強化学習モデルを提案する。
我々はIVRLモデルを定式化し、DQNとA2Cの2つのIVRLモデルを提案した。
RPG強化学習プラットフォームVIZDoomにおけるDQN,DDQN,A2C,PPOなどのベンチマークアルゴリズムと比較することにより,各個人のニーズを合理的に整理することで,より優れたパフォーマンスが得られることを示した。
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent
Systems [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
強化学習(RL)の本質は、報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。
本稿では,多エージェント相互作用の複雑な振る舞いを記述するために,階層型複合値強化学習モデル(本質的強化学習)を提案する。
論文 参考訳(メタデータ) (2024-01-10T22:51:10Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。
その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文 参考訳(メタデータ) (2021-04-02T14:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。