Fugu-MT 論文翻訳(概要): Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning

論文の概要: Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.01158v1
Date: Mon, 3 Jul 2023 17:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-05 12:08:42.323953
Title: Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習における本質的動機づけとしての心の理論
Authors: Ini Oguntola, Joseph Campbell, Simon Stepputtis, Katia Sycara
Abstract要約: 本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。
参考スコア（独自算出の注目度）: 5.314466196448188
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The ability to model the mental states of others is crucial to human social intelligence, and can offer similar benefits to artificial agents with respect to the social dynamics induced in multi-agent settings. We present a method of grounding semantically meaningful, human-interpretable beliefs within policies modeled by deep networks. We then consider the task of 2nd-order belief prediction. We propose that ability of each agent to predict the beliefs of the other agents can be used as an intrinsic reward signal for multi-agent reinforcement learning. Finally, we present preliminary empirical results in a mixed cooperative-competitive environment.
Abstract（参考訳）: 他者の精神状態をモデル化する能力は、人間の社会的知性にとって不可欠であり、マルチエージェント環境で引き起こされる社会的ダイナミクスに関して、人工エージェントにも同様の利点を提供することができる。本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。次に,2次信念予測の課題について考察する。各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。最後に,複合協調競争環境における予備実験結果を示す。

関連論文リスト

Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文参考訳（メタデータ） (2026-01-18T18:58:23Z)
Embedded Universal Predictive Intelligence: a coherent framework for multi-agent learning [57.23345786304694]
予測学習のための枠組みと自己予測を中心とした組込みエージェントを導入する。マルチエージェント設定では、エージェントが類似したアルゴリズムを実行している他のエージェントについて推論することができる。我々は、AIXIの理論を拡張し、Solomonoffから始まる普遍的なインテリジェントな埋め込みエージェントについて研究する。
論文参考訳（メタデータ） (2025-11-27T08:46:48Z)
Theory of Mind Using Active Inference: A Framework for Multi-Agent Cooperation [4.06613683722116]
能動推論において心の理論(ToM)を実装することで,マルチエージェント協調への新たなアプローチを提案する。 ToMは、エージェントが自分の行動を計画しながら他人の信念を判断することを可能にする。我々は、複雑な推論木に基づく計画アルゴリズムを拡張して、共同政策空間を体系的に探索する。
論文参考訳（メタデータ） (2025-08-01T08:02:35Z)
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence [6.322831694506287]
複数のAIファンデーションモデル間のインタラクションをオーケストレーションするフレームワークを開発する。このフレームワークは、主に現実世界の知識を必要とするタスクに対して、無視可能なメリットを提供する。一方、我々は、集中的な論理的推論を必要とするタスクの大幅な改善について言及する。
論文参考訳（メタデータ） (2025-03-07T14:45:03Z)
Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。 ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文参考訳（メタデータ） (2025-01-26T00:32:38Z)
Episodic Future Thinking Mechanism for Multi-agent Reinforcement Learning [2.992602379681373]
本稿では、強化学習(RL)エージェントのためのエピソード・フューチャー・シンキング(EFT)機構を導入する。まず、異種ポリシーのアンサンブルで多様な文字をキャプチャするマルチ文字ポリシーを開発する。キャラクタが推論されると、エージェントはターゲットエージェントの今後のアクションを予測し、将来のシナリオをシミュレートする。
論文参考訳（メタデータ） (2024-10-22T19:12:42Z)
PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文参考訳（メタデータ） (2024-07-17T08:13:22Z)
Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文参考訳（メタデータ） (2024-07-09T17:57:15Z)
Approximating Human Models During Argumentation-based Dialogues [4.178382980763478]
説明可能なAI計画(XAIP)の主な課題は、モデルの和解である。本稿では,AIエージェントによる確率的人間モデル学習と更新を可能にする新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-28T23:22:18Z)
SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文参考訳（メタデータ） (2024-05-03T04:12:19Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
Multi-Agent Dynamic Relational Reasoning for Social Robot Navigation [50.01551945190676]
社会ロボットナビゲーションは、日常生活の様々な状況において有用であるが、安全な人間とロボットの相互作用と効率的な軌道計画が必要である。本稿では, 動的に進化する関係構造を明示的に推論した系統的関係推論手法を提案する。マルチエージェント軌道予測とソーシャルロボットナビゲーションの有効性を実証する。
論文参考訳（メタデータ） (2024-01-22T18:58:22Z)
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文参考訳（メタデータ） (2023-12-10T06:03:57Z)
Learning Theory of Mind via Dynamic Traits Attribution [59.9781556714202]
本稿では,過去のトラジェクトリからアクターの潜在特性ベクトルを生成するニューラルToMアーキテクチャを提案する。この特性ベクトルは、予測ニューラルネットワークの高速重み付けスキームを介して予測機構を乗法的に変調する。実験により,高速重量はエージェントの特性をモデル化し,マインドリーディング能力を向上させるために優れた誘導バイアスを与えることが示された。
論文参考訳（メタデータ） (2022-04-17T11:21:18Z)
ToM2C: Target-oriented Multi-agent Communication and Cooperation with Theory of Mind [18.85252946546942]
心の理論(Theory of Mind、ToM)は、効果的なコミュニケーションと協力が可能な社会的に知的なエージェントを構築する。このアイデアは、協調ナビゲーションとマルチセンサーターゲットカバレッジという、2つの典型的な目標指向型マルチエージェントタスクで実証される。
論文参考訳（メタデータ） (2021-10-15T18:29:55Z)
Deep Interpretable Models of Theory of Mind For Human-Agent Teaming [0.7734726150561086]
我々は、他の観測対象の意図をモデル化するための解釈可能なモジュラー・ニューラル・フレームワークを開発する。 Minecraftの検索および救助タスクで、人間の参加者のデータに関する実験を行い、アプローチの有効性を実証します。
論文参考訳（メタデータ） (2021-04-07T06:18:58Z)
Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文参考訳（メタデータ） (2020-11-12T19:04:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。