論文の概要: Innate-Values-driven Reinforcement Learning based Cognitive Modeling
- arxiv url: http://arxiv.org/abs/2411.09160v2
- Date: Mon, 09 Jun 2025 19:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 22:10:06.872937
- Title: Innate-Values-driven Reinforcement Learning based Cognitive Modeling
- Title(参考訳): 固有値駆動型強化学習に基づく認知モデリング
- Authors: Qin Yang,
- Abstract要約: 本来の価値観はエージェントの本質的なモチベーションを表しており、エージェントの本来の関心や目標追求の好みを反映している。
本稿では,本モデルと期待効用理論を組み合わせた固有値駆動型(IVRL)と呼ばれる新しいRLモデルを提案する。
VILベースのモデルは、エージェントが様々なニーズを合理的に整理し、より効果的なパフォーマンスを実現するのに役立つことを実証する。
- 参考スコア(独自算出の注目度): 1.8220718426493654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Innate values describe agents' intrinsic motivations, which reflect their inherent interests and preferences for pursuing goals and drive them to develop diverse skills that satisfy their various needs. Traditional reinforcement learning (RL) is learning from interaction based on the feedback rewards of the environment. However, in real scenarios, the rewards are generated by agents' innate value systems, which differ vastly from individuals based on their needs and requirements. In other words, considering the AI agent as a self-organizing system, developing its awareness through balancing internal and external utilities based on its needs in different tasks is a crucial problem for individuals learning to support others and integrate community with safety and harmony in the long term. To address this gap, we propose a new RL model termed innate-values-driven RL (IVRL) based on combined motivations' models and expected utility theory to mimic its complex behaviors in the evolution through decision-making and learning. Then, we introduce two IVRL-based models: IV-DQN and IV-A2C. By comparing them with benchmark algorithms such as DQN, DDQN, A2C, and PPO in the Role-Playing Game (RPG) reinforcement learning test platform VIZDoom, we demonstrated that the IVRL-based models can help the agent rationally organize various needs, achieve better performance effectively.
- Abstract(参考訳): 本来の価値観はエージェントの本質的なモチベーションを表現しており、エージェントの本来の関心や目標追求の好みを反映し、さまざまなニーズを満たす多様なスキルを発達させる。
従来の強化学習(RL)は、環境のフィードバック報酬に基づいて相互作用から学習する。
しかし、実際のシナリオでは、報酬はエージェントの固有の価値システムによって生成される。
言い換えれば、AIエージェントを自己組織化システムとして考えると、異なるタスクにおけるニーズに基づいて内部と外部のユーティリティのバランスをとることによって、その意識を発達させることは、個人が他の人をサポートし、コミュニティを長期的な安全と調和と統合することを学ぶ上で重要な問題である。
このギャップに対処するため,本研究では,帰納的価値駆動型RL(Innate-values-driven RL, IVRL)と呼ばれる新しいRLモデルを提案する。
次に,IV-DQNとIV-A2Cの2つのIVRLモデルを紹介する。
RPG(Role-Playing Game)強化学習プラットフォームVIZDoomにおいて,DQN,DDQN,A2C,PPOなどのベンチマークアルゴリズムと比較することにより,IVRLベースのモデルにより,エージェントが様々なニーズを合理的に整理し,より効率的なパフォーマンスを実現することができることを示した。
関連論文リスト
- A Nature-Inspired Colony of Artificial Intelligence System with Fast, Detailed, and Organized Learner Agents for Enhancing Diversity and Quality [0.0]
我々は、CNNベースのAIエージェントのコロニーを構築し、単一のシステムとして機能させるアプローチを提案する。
提案システムは、アリコロニーやヒトコロニーのような生物学的システムの自然環境を識別する。
AIのコロニーにおける高速で詳細な学習者の進化は、ユニークな1対1マッピングを導入することで達成される。
論文 参考訳(メタデータ) (2025-04-07T12:13:14Z) - Simulating Human-like Daily Activities with Desire-driven Autonomy [25.380194192389492]
本稿では,大規模言語モデル(LLM)を自律的に提案し,タスクを選択することを可能にする,D2A(Desire-driven Autonomous Agent)を提案する。
各ステップにおいて、エージェントは現在の状態の価値を評価し、一連の候補活動を提案し、その本質的なモチベーションに最適なものを選択する。
論文 参考訳(メタデータ) (2024-12-09T12:21:20Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent
Systems [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。
強化学習(RL)の本質は、報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。
本稿では,多エージェント相互作用の複雑な振る舞いを記述するために,階層型複合値強化学習モデル(本質的強化学習)を提案する。
論文 参考訳(メタデータ) (2024-01-10T22:51:10Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Learning in Cooperative Multiagent Systems Using Cognitive and Machine
Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。
一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。
我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。
我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文 参考訳(メタデータ) (2023-08-18T00:39:06Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。
その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文 参考訳(メタデータ) (2021-04-02T14:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。