Fugu-MT 論文翻訳(概要): Rationality based Innate-Values-driven Reinforcement Learning

論文の概要: Rationality based Innate-Values-driven Reinforcement Learning

arxiv url: http://arxiv.org/abs/2411.09160v1
Date: Thu, 14 Nov 2024 03:28:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.565024
Title: Rationality based Innate-Values-driven Reinforcement Learning
Title（参考訳）: 帰納的価値駆動型強化学習に基づく合理性
Authors: Qin Yang,
Abstract要約: 本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。本稿では,階層型強化学習モデルを提案する。
参考スコア（独自算出の注目度）: 1.8220718426493654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Innate values describe agents' intrinsic motivations, which reflect their inherent interests and preferences to pursue goals and drive them to develop diverse skills satisfying their various needs. The essence of reinforcement learning (RL) is learning from interaction based on reward-driven behaviors, much like natural agents. It is an excellent model to describe the innate-values-driven (IV) behaviors of AI agents. Especially developing the awareness of the AI agent through balancing internal and external utilities based on its needs in different tasks is a crucial problem for individuals learning to support AI agents integrating human society with safety and harmony in the long term. This paper proposes a hierarchical compound intrinsic value reinforcement learning model -- innate-values-driven reinforcement learning termed IVRL to describe the complex behaviors of AI agents' interaction. We formulated the IVRL model and proposed two IVRL models: DQN and A2C. By comparing them with benchmark algorithms such as DQN, DDQN, A2C, and PPO in the Role-Playing Game (RPG) reinforcement learning test platform VIZDoom, we demonstrated that rationally organizing various individual needs can effectively achieve better performance.
Abstract（参考訳）: 本来の価値観はエージェントの本質的なモチベーションを表しており、エージェントが目的を追求し、様々なニーズを満たす多様なスキルを身につけるために、その本来の関心や好みを反映している。強化学習(RL)の本質は、自然エージェントのように報酬駆動行動に基づく相互作用から学ぶことである。これはAIエージェントの固有値駆動(IV)行動を記述するための優れたモデルである。特に、異なるタスクにおけるニーズに基づいて内部ユーティリティと外部ユーティリティのバランスをとることで、AIエージェントの認識を向上させることは、人間の社会と安全と調和を長期的に統合するAIエージェントを支援することを学ぶ個人にとって重要な問題である。本稿では,AIエージェントの相互作用の複雑な振る舞いを記述するために,固有値駆動型強化学習(IVRL)と呼ばれる階層型複合固有値強化学習モデルを提案する。我々はIVRLモデルを定式化し、DQNとA2Cの2つのIVRLモデルを提案した。 RPG強化学習プラットフォームVIZDoomにおけるDQN,DDQN,A2C,PPOなどのベンチマークアルゴリズムと比較することにより,各個人のニーズを合理的に整理することで,より優れたパフォーマンスが得られることを示した。

関連論文リスト

Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [76.86311820866153]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。 DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。 DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文参考訳（メタデータ） (2025-05-31T00:10:18Z)
DSADF: Thinking Fast and Slow for Decision Making [9.84593001541736]
RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
論文参考訳（メタデータ） (2025-05-13T02:58:04Z)
Interactive Double Deep Q-network: Integrating Human Interventions and Evaluative Predictions in Reinforcement Learning of Autonomous Driving [16.379623042562415]
本研究では、強化学習(RL)を強化するHuman-in-the-Loop(HITL)アプローチであるInteractive Double Deep Q-network(iDDQN)を導入する。提案したiDDQN法は,Q値更新方程式を修正して,人間とエージェントのアクションを統合することで,政策開発のための協調的アプローチを確立する。シミュレーションされた自律走行シナリオにおける実証的な結果は、iDDQNが確立されたアプローチより優れていることを示している。
論文参考訳（メタデータ） (2025-04-28T05:25:18Z)
A Nature-Inspired Colony of Artificial Intelligence System with Fast, Detailed, and Organized Learner Agents for Enhancing Diversity and Quality [0.0]
我々は、CNNベースのAIエージェントのコロニーを構築し、単一のシステムとして機能させるアプローチを提案する。提案システムは、アリコロニーやヒトコロニーのような生物学的システムの自然環境を識別する。 AIのコロニーにおける高速で詳細な学習者の進化は、ユニークな1対1マッピングを導入することで達成される。
論文参考訳（メタデータ） (2025-04-07T12:13:14Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
Autotelic Reinforcement Learning: Exploring Intrinsic Motivations for Skill Acquisition in Open-Ended Environments [1.104960878651584]
本稿では, 自己強化学習(RL)の概要を概観し, スキルレパートリーのオープンエンド形成における本質的モチベーションの役割を強調した。知識ベースと能力ベースの本質的なモチベーションの区別を明確にし、これらの概念が自己定義目標を生成・追求できる自律エージェントの開発にどのように役立つかを説明する。
論文参考訳（メタデータ） (2025-02-06T14:37:46Z)
Simulating Human-like Daily Activities with Desire-driven Autonomy [25.380194192389492]
本稿では,大規模言語モデル(LLM)を自律的に提案し,タスクを選択することを可能にする,D2A(Desire-driven Autonomous Agent)を提案する。各ステップにおいて、エージェントは現在の状態の価値を評価し、一連の候補活動を提案し、その本質的なモチベーションに最適なものを選択する。
論文参考訳（メタデータ） (2024-12-09T12:21:20Z)
A Unifying Framework for Action-Conditional Self-Predictive Reinforcement Learning [48.59516337905877]
優れた表現を学ぶことは、強化学習(RL)エージェントにとって重要な課題である。近年の研究では、これらのアルゴリズムに関する理論的洞察が生まれている。我々は,行動条件の自己予測的目的を分析することによって,理論と実践のギャップを埋める一歩を踏み出した。
論文参考訳（メタデータ） (2024-06-04T07:22:12Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Innate-Values-driven Reinforcement Learning for Cooperative Multi-Agent Systems [1.8220718426493654]
本来の価値はエージェントの本質的なモチベーションを表しており、それはエージェントの本来の関心や目標を追求する好みを反映している。強化学習(RL)の本質は、報酬駆動(ユーティリティなど)の振る舞いに基づく相互作用から学ぶことである。本稿では,多エージェント相互作用の複雑な振る舞いを記述するために,階層型複合値強化学習モデル(本質的強化学習)を提案する。
論文参考訳（メタデータ） (2024-01-10T22:51:10Z)
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文参考訳（メタデータ） (2023-12-22T17:57:57Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Learning in Cooperative Multiagent Systems Using Cognitive and Machine Models [1.0742675209112622]
マルチエージェントシステム(MAS)は、人間との協調と協調を必要とする多くのアプリケーションにとって重要である。一つの大きな課題は、動的環境における独立したエージェントの同時学習と相互作用である。我々はMulti-Agent IBLモデル(MAIBL)の3つの変種を提案する。我々は,MAIBLモデルが学習速度を向上し,動的CMOTPタスクにおいて,現在のMADRLモデルと比較して様々な報酬設定でコーディネートを達成できることを実証した。
論文参考訳（メタデータ） (2023-08-18T00:39:06Z)
Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文参考訳（メタデータ） (2022-04-07T14:07:51Z)
Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。 RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文参考訳（メタデータ） (2022-01-18T20:54:00Z)
An active inference model of collective intelligence [0.0]
本稿では,局所的な個人レベルの相互作用と集団的知性の関係をシミュレートする最小エージェントモデルを提案する。その結果, エージェントの局所的最適とグローバル的最適の整合性の相補的なメカニズムを提供することにより, 段階的認知遷移がシステム性能を向上させることが示された。
論文参考訳（メタデータ） (2021-04-02T14:32:01Z)
Reinforcement Learning through Active Inference [62.997667081978825]
アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
論文参考訳（メタデータ） (2020-02-28T10:28:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。