Fugu-MT 論文翻訳(概要): Innate-Values-driven Reinforcement Learning based Cognitive Modeling

論文の概要: Innate-Values-driven Reinforcement Learning based Cognitive Modeling

arxiv url: http://arxiv.org/abs/2411.09160v2
Date: Mon, 09 Jun 2025 19:52:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 22:10:06.872937
Title: Innate-Values-driven Reinforcement Learning based Cognitive Modeling
Title（参考訳）: 固有値駆動型強化学習に基づく認知モデリング
Authors: Qin Yang,
Abstract要約: 本来の価値観はエージェントの本質的なモチベーションを表しており、エージェントの本来の関心や目標追求の好みを反映している。本稿では,本モデルと期待効用理論を組み合わせた固有値駆動型(IVRL)と呼ばれる新しいRLモデルを提案する。 VILベースのモデルは、エージェントが様々なニーズを合理的に整理し、より効果的なパフォーマンスを実現するのに役立つことを実証する。
参考スコア（独自算出の注目度）: 1.8220718426493654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Innate values describe agents' intrinsic motivations, which reflect their inherent interests and preferences for pursuing goals and drive them to develop diverse skills that satisfy their various needs. Traditional reinforcement learning (RL) is learning from interaction based on the feedback rewards of the environment. However, in real scenarios, the rewards are generated by agents' innate value systems, which differ vastly from individuals based on their needs and requirements. In other words, considering the AI agent as a self-organizing system, developing its awareness through balancing internal and external utilities based on its needs in different tasks is a crucial problem for individuals learning to support others and integrate community with safety and harmony in the long term. To address this gap, we propose a new RL model termed innate-values-driven RL (IVRL) based on combined motivations' models and expected utility theory to mimic its complex behaviors in the evolution through decision-making and learning. Then, we introduce two IVRL-based models: IV-DQN and IV-A2C. By comparing them with benchmark algorithms such as DQN, DDQN, A2C, and PPO in the Role-Playing Game (RPG) reinforcement learning test platform VIZDoom, we demonstrated that the IVRL-based models can help the agent rationally organize various needs, achieve better performance effectively.
Abstract（参考訳）: 本来の価値観はエージェントの本質的なモチベーションを表現しており、エージェントの本来の関心や目標追求の好みを反映し、さまざまなニーズを満たす多様なスキルを発達させる。従来の強化学習(RL)は、環境のフィードバック報酬に基づいて相互作用から学習する。しかし、実際のシナリオでは、報酬はエージェントの固有の価値システムによって生成される。言い換えれば、AIエージェントを自己組織化システムとして考えると、異なるタスクにおけるニーズに基づいて内部と外部のユーティリティのバランスをとることによって、その意識を発達させることは、個人が他の人をサポートし、コミュニティを長期的な安全と調和と統合することを学ぶ上で重要な問題である。このギャップに対処するため,本研究では,帰納的価値駆動型RL(Innate-values-driven RL, IVRL)と呼ばれる新しいRLモデルを提案する。次に,IV-DQNとIV-A2Cの2つのIVRLモデルを紹介する。 RPG(Role-Playing Game)強化学習プラットフォームVIZDoomにおいて,DQN,DDQN,A2C,PPOなどのベンチマークアルゴリズムと比較することにより,IVRLベースのモデルにより,エージェントが様々なニーズを合理的に整理し,より効率的なパフォーマンスを実現することができることを示した。

関連論文リスト

Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [76.86311820866153]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。 DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。 DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文参考訳（メタデータ） (2025-05-31T00:10:18Z)
DSADF: Thinking Fast and Slow for Decision Making [9.84593001541736]
RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
論文参考訳（メタデータ） (2025-05-13T02:58:04Z)
Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文参考訳（メタデータ） (2025-04-28T05:25:18Z)
A Nature-Inspired Colony of Artificial Intelligence System with Fast, Detailed, and Organized Learner Agents for Enhancing Diversity and Quality [0.0]
我々は、CNNベースのAIエージェントのコロニーを構築し、単一のシステムとして機能させるアプローチを提案する。提案システムは、アリコロニーやヒトコロニーのような生物学的システムの自然環境を識別する。 AIのコロニーにおける高速で詳細な学習者の進化は、ユニークな1対1マッピングを導入することで達成される。
論文参考訳（メタデータ） (2025-04-07T12:13:14Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Autotelic Reinforcement Learning: Exploring Intrinsic Motivations for Skill Acquisition in Open-Ended Environments [1.104960878651584]
本稿では, 自己強化学習(RL)の概要を概観し, スキルレパートリーのオープンエンド形成における本質的モチベーションの役割を強調した。知識ベースと能力ベースの本質的なモチベーションの区別を明確にし、これらの概念が自己定義目標を生成・追求できる自律エージェントの開発にどのように役立つかを説明する。
論文参考訳（メタデータ） (2025-02-06T14:37:46Z)
Simulating Human-like Daily Activities with Desire-driven Autonomy [25.380194192389492]
本稿では,大規模言語モデル(LLM)を自律的に提案し,タスクを選択することを可能にする,D2A(Desire-driven Autonomous Agent)を提案する。各ステップにおいて、エージェントは現在の状態の価値を評価し、一連の候補活動を提案し、その本質的なモチベーションに最適なものを選択する。
論文参考訳（メタデータ） (2024-12-09T12:21:20Z)
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文参考訳（メタデータ） (2024-06-04T07:22:12Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。強化学習(RL)の本質は、報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。本稿では,多エージェント相互作用の複雑な振る舞いを記述するために,階層型複合値強化学習モデル(本質的強化学習)を提案する。
論文参考訳（メタデータ） (2024-01-10T22:51:10Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Learning in Cooperative Multiagent Systems Using Cognitive and Machine Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文参考訳（メタデータ） (2023-08-18T00:39:06Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。 RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文参考訳（メタデータ） (2022-01-18T20:54:00Z)
An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文参考訳（メタデータ） (2021-04-02T14:32:01Z)
Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文参考訳（メタデータ） (2020-02-28T10:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。