論文の概要: The Yokai Learning Environment: Tracking Beliefs Over Space and Time
- arxiv url: http://arxiv.org/abs/2508.12480v1
- Date: Sun, 17 Aug 2025 19:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.792949
- Title: The Yokai Learning Environment: Tracking Beliefs Over Space and Time
- Title(参考訳): 妖怪学習環境 : 空間と時間に関する信念の追跡
- Authors: Constantin Ruhdorfer, Matteo Bortoletto, Andreas Bulling,
- Abstract要約: 協力型カードゲーム「妖怪」に基づく強化学習環境「妖怪学習環境(YLE)」について紹介する。
成功には、進化する信念の追跡、過去の観察の記憶、ヒントを根拠としたコミュニケーション、チームメイトとの共通基盤の維持が必要です。
現在のRLエージェントは、完全なメモリへのアクセスが与えられたとしても、YLEを解決するのに苦労している。
信念モデリングはパフォーマンスを向上させるが、エージェントは依然として、目に見えないパートナーに効果的に一般化したり、より長いゲームに対して正確な信念を形成することはできない。
- 参考スコア(独自算出の注目度): 8.882575080324711
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Developing collaborative AI hinges on Theory of Mind (ToM) - the ability to reason about the beliefs of others to build and maintain common ground. Existing ToM benchmarks, however, are restricted to passive observer settings or lack an assessment of how agents establish and maintain common ground over time. To address these gaps, we introduce the Yokai Learning Environment (YLE) - a multi-agent reinforcement learning (RL) environment based on the cooperative card game Yokai. In the YLE, agents take turns peeking at hidden cards and moving them to form clusters based on colour. Success requires tracking evolving beliefs, remembering past observations, using hints as grounded communication, and maintaining common ground with teammates. Our evaluation yields two key findings: First, current RL agents struggle to solve the YLE, even when given access to perfect memory. Second, while belief modelling improves performance, agents are still unable to effectively generalise to unseen partners or form accurate beliefs over longer games, exposing a reliance on brittle conventions rather than robust belief tracking. We use the YLE to investigate research questions in belief modelling, memory, partner generalisation, and scaling to higher-order ToM.
- Abstract(参考訳): 協調AIの開発は、心の理論(ToM)に基づくもので、他人の信念を推論し、共通基盤を構築し維持する能力である。
しかし、既存のToMベンチマークは、パッシブオブザーバの設定に制限されるか、エージェントが時間とともに共通基盤を確立し維持する方法の評価が欠如している。
これらのギャップに対処するために,協力型カードゲーム「妖怪」をベースとしたマルチエージェント強化学習(RL)環境である妖怪学習環境(YLE)を紹介した。
YLEでは、隠されたカードを交代で覗き見し、色に基づいてクラスターを形成する。
成功には、進化する信念の追跡、過去の観察の記憶、ヒントを根拠としたコミュニケーション、チームメイトとの共通基盤の維持が必要です。
まず、現在のRLエージェントは、完全なメモリへのアクセスが与えられたとしても、YLEを解決するのに苦労しています。
第二に、信念モデリングはパフォーマンスを向上させるが、エージェントはいまだに未確認のパートナーに効果的に一般化したり、より長いゲームに対して正確な信念を形成することができず、堅牢な信念追跡よりも不安定な慣習への依存を明らかにする。
我々は、YLEを用いて、信念モデリング、記憶、パートナーの一般化、高次ToMへのスケーリングに関する研究課題を調査する。
関連論文リスト
- Theory of Mind Using Active Inference: A Framework for Multi-Agent Cooperation [4.06613683722116]
能動推論において心の理論(ToM)を実装することで,マルチエージェント協調への新たなアプローチを提案する。
ToMは、エージェントが自分の行動を計画しながら他人の信念を判断することを可能にする。
我々は、複雑な推論木に基づく計画アルゴリズムを拡張して、共同政策空間を体系的に探索する。
論文 参考訳(メタデータ) (2025-08-01T08:02:35Z) - Corrupted by Reasoning: Reasoning Language Models Become Free-Riders in Public Goods Games [87.5673042805229]
大規模言語モデルは、アライメント、堅牢性、安全なデプロイメントを保証する上で、いかに自己関心と集合的幸福のバランスをとるかが重要な課題である。
我々は、行動経済学から制度的に選択した公共財ゲームに適応し、異なるLLMがいかに社会的ジレンマをナビゲートするかを観察することができる。
意外なことに、o1シリーズのようなLCMの推論は、協調にかなり苦労している。
論文 参考訳(メタデータ) (2025-06-29T15:02:47Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - The Traitors: Deception and Trust in Multi-Agent Language Model Simulations [0.0]
ソーシャル・デダクション・ゲームに触発されたマルチエージェント・シミュレーション・フレームワークであるThe Traitorsを紹介した。
我々は,詐欺の成功,信頼ダイナミクス,集団推論品質を計測する評価指標のスイートを開発する。
DeepSeek-V3, GPT-4o-mini, GPT-4o(モデル毎に10回の走行)による実験では, 顕著な非対称性が示された。
論文 参考訳(メタデータ) (2025-05-19T10:01:35Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Evaluating and Enhancing LLMs Agent based on Theory of Mind in Guandan: A Multi-Player Cooperative Game under Imperfect Information [36.11862095329315]
大規模言語モデル(LLM)は、不完全な情報で単純なゲームを扱うことに成功している。
本研究では,オープンソースのLLMとAPIベースのLLMが獲得した知識を,洗練されたテキストベースのゲームに適用する可能性について検討する。
論文 参考訳(メタデータ) (2024-08-05T15:36:46Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Multiagent Inverse Reinforcement Learning via Theory of Mind Reasoning [0.0]
我々は,Multiagent Inverse Reinforcement Learning(MIRL)に対する新しいアプローチを提案する。
MIRLは、タスクパフォーマンス中に与えられた各チームの振る舞いの軌跡を導く報酬関数を推論することを目的としている。
シミュレーション2-player search-and-rescue 動作におけるアプローチの評価を行った。
論文 参考訳(メタデータ) (2023-02-20T19:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。