Fugu-MT 論文翻訳(概要): Neural Recursive Belief States in Multi-Agent Reinforcement Learning

論文の概要: Neural Recursive Belief States in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2102.02274v1
Date: Wed, 3 Feb 2021 20:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 16:40:19.320867
Title: Neural Recursive Belief States in Multi-Agent Reinforcement Learning
Title（参考訳）: マルチエージェント強化学習におけるニューラル再帰的信念
Authors: Pol Moreno, Edward Hughes, Kevin R. McKee, Bernardo Avila Pires, Th\'eophane Weber
Abstract要約: 人間は容易に仲間の持つ知識についての信念を形成し、信念を利用して意思決定を知らせる。深層生成モデルを用いてこれらの信念構造を近似するスケーラブルな手法を提案する。我々のエージェントは、共通のトレーニングパラダイムを用いて、モデルフリーのベースラインを同等の表現能力で上回る信念モデルで訓練した。
参考スコア（独自算出の注目度）: 10.593726284820153
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multi-agent reinforcement learning, the problem of learning to act is particularly difficult because the policies of co-players may be heavily conditioned on information only observed by them. On the other hand, humans readily form beliefs about the knowledge possessed by their peers and leverage beliefs to inform decision-making. Such abilities underlie individual success in a wide range of Markov games, from bluffing in Poker to conditional cooperation in the Prisoner's Dilemma, to convention-building in Bridge. Classical methods are usually not applicable to complex domains due to the intractable nature of hierarchical beliefs (i.e. beliefs of other agents' beliefs). We propose a scalable method to approximate these belief structures using recursive deep generative models, and to use the belief models to obtain representations useful to acting in complex tasks. Our agents trained with belief models outperform model-free baselines with equivalent representational capacity using common training paradigms. We also show that higher-order belief models outperform agents with lower-order models.
Abstract（参考訳）: マルチエージェント強化学習では、共同演奏者の方針が観察される情報に重く依存する可能性があるため、行動する学習の問題は特に困難である。一方、人間は仲間が持つ知識についての信念を容易に形成し、信念を利用して意思決定を知らせる。このような能力は、ポーカーのブラフリングから囚人のジレンマにおける条件付き協力、ブリッジでのコンベンションビルディングまで、幅広いマルコフゲームで個々の成功を裏付ける。古典的な方法は通常、階層的信念(すなわち)の難解な性質のために複雑なドメインには適用されない。他のエージェントの信念の信念)。再帰的深生成モデルを用いてこれらの信念構造を近似するスケーラブルな手法を提案し,その信念モデルを用いて複雑なタスクにおいて有用な表現を得る。信念モデルで訓練されたエージェントは、共通のトレーニングパラダイムを使用して同等の表現能力を持つモデルフリーベースラインを上回ります。また、高次信条モデルが低次モデルでエージェントを上回っていることも示します。

関連論文リスト

Belief States for Cooperative Multi-Agent Reinforcement Learning under Partial Observability [3.2912049028407897]
本稿では,強化学習における課題を克服するために,システムの根底にある状態に対する学習的信念の利用を提案する。部分観測可能性下での協調型マルチエージェント強化学習のためのエンドツーエンドモデルを作成する。本研究では,部分観測可能性の異なるバリエーションを示すために設計された多変数部分観測可能マルチエージェントタスクについて,提案手法の評価を行った。
論文参考訳（メタデータ） (2025-04-11T10:21:58Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence [6.322831694506287]
複数のAIファンデーションモデル間のインタラクションをオーケストレーションするフレームワークを開発する。このフレームワークは、主に現実世界の知識を必要とするタスクに対して、無視可能なメリットを提供する。一方、我々は、集中的な論理的推論を必要とするタスクの大幅な改善について言及する。
論文参考訳（メタデータ） (2025-03-07T14:45:03Z)
The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文参考訳（メタデータ） (2024-12-15T10:34:06Z)
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文参考訳（メタデータ） (2024-10-22T09:25:21Z)
Big Cooperative Learning [7.958840888809145]
基礎モデルのトレーニングは,大きな協調学習の一形態として解釈できることを示す。本稿では,多目的データサンプリング機能を備えた新しい逆学習基盤モデルであるBigLearn-GANを提案する。
論文参考訳（メタデータ） (2024-07-31T03:59:14Z)
Innate-Values-driven Reinforcement Learning based Cooperative Multi-Agent Cognitive Modeling [1.8220718426493654]
本稿では,個別の選好角度から固有値強化学習アーキテクチャを提案する。異なるStarCraft Multi-Agent Challenge設定でMulti-AgentL Actor-Critic Modelを検証した。
論文参考訳（メタデータ） (2024-01-10T22:51:10Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文参考訳（メタデータ） (2023-04-10T15:44:50Z)
Concept Learning for Interpretable Multi-Agent Reinforcement Learning [5.179808182296037]
本稿では,ドメインエキスパートからの解釈可能な概念を,マルチエージェント強化学習を通じて学習したモデルに組み込む手法を提案する。これにより、専門家は、結果のコンセプトモデルについて、これらのハイレベルな概念を実行時に推論するだけでなく、パフォーマンスを改善するために介入し、正しい予測を行うことができる。シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。
論文参考訳（メタデータ） (2023-02-23T18:53:09Z)
Combining Deep Reinforcement Learning and Search with Generative Models for Game-Theoretic Opponent Modeling [30.465929764202155]
深層ゲーム理論強化学習を用いた対戦型モデリングのためのスケーラブルで汎用的なマルチエージェントトレーニングシステムを提案する。まず,モンテカルロ木探索(MCTS)に基づく最適応答アルゴリズムGenBRを提案する。我々は,政策空間対応オラクル (PSRO) の枠組みの下で,この新たな手法を用いて,エホフライン反対モデルの自動生成を行う。
論文参考訳（メタデータ） (2023-02-01T23:06:23Z)
MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文参考訳（メタデータ） (2021-12-30T19:21:03Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文参考訳（メタデータ） (2020-06-06T17:19:04Z)
Plausible Counterfactuals: Auditing Deep Learning Classifiers with Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。 GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文参考訳（メタデータ） (2020-03-25T11:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。