Fugu-MT 論文翻訳(概要): Concept Learning for Interpretable Multi-Agent Reinforcement Learning

論文の概要: Concept Learning for Interpretable Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2302.12232v1
Date: Thu, 23 Feb 2023 18:53:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 14:02:54.766228
Title: Concept Learning for Interpretable Multi-Agent Reinforcement Learning
Title（参考訳）: 解釈可能なマルチエージェント強化学習のための概念学習
Authors: Renos Zabounidis, Joseph Campbell, Simon Stepputtis, Dana Hughes, Katia Sycara
Abstract要約: 本稿では,ドメインエキスパートからの解釈可能な概念を,マルチエージェント強化学習を通じて学習したモデルに組み込む手法を提案する。これにより、専門家は、結果のコンセプトモデルについて、これらのハイレベルな概念を実行時に推論するだけでなく、パフォーマンスを改善するために介入し、正しい予測を行うことができる。シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。
参考スコア（独自算出の注目度）: 5.179808182296037
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent robotic systems are increasingly operating in real-world environments in close proximity to humans, yet are largely controlled by policy models with inscrutable deep neural network representations. We introduce a method for incorporating interpretable concepts from a domain expert into models trained through multi-agent reinforcement learning, by requiring the model to first predict such concepts then utilize them for decision making. This allows an expert to both reason about the resulting concept policy models in terms of these high-level concepts at run-time, as well as intervene and correct mispredictions to improve performance. We show that this yields improved interpretability and training stability, with benefits to policy performance and sample efficiency in a simulated and real-world cooperative-competitive multi-agent game.
Abstract（参考訳）: マルチエージェントロボットシステムは、人間に近い現実世界の環境でますます運用されているが、主に深いニューラルネットワーク表現を持つポリシーモデルによって制御されている。本稿では,その概念をモデルに最初に予測させ,それを意思決定に利用させることによって,ドメインエキスパートから多エージェント強化学習によって学習されたモデルへの解釈可能な概念を組み込む手法を提案する。これにより、専門家は、これらのハイレベルな概念を実行時の観点で、結果のコンセプトポリシーモデルを推論できるだけでなく、パフォーマンスを改善するために誤った予測を介入し、修正することができる。シミュレーションおよび実世界の協調競争型マルチエージェントゲームにおいて,政策性能とサンプル効率の利点を生かし,解釈可能性とトレーニング安定性の向上を図っている。

関連論文リスト

Platonic Grounding for Efficient Multimodal Language Models [22.715168904364756]
我々は、事前訓練されたモデルの整合性に依存する既存のマルチモーダルフレームワークをモチベーションし、簡単な修正を提案する。私たちの研究は、事前学習されたモデルをより大規模なシステムに効率的に組み合わせることにも影響します。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories [4.503215272392276]
自律的な研究室における意思決定のためのマルチモーダル強化学習フレームワークMORALを提案する。我々は、事前訓練されたBLIP-2視覚言語モデルで微調整された画像キャプションを生成し、早期融合戦略により視覚特徴と組み合わせる。実験の結果,マルチモーダルエージェントはタスク完了率を20%向上することがわかった。
論文参考訳（メタデータ） (2025-04-04T04:15:52Z)
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文参考訳（メタデータ） (2025-03-16T00:25:13Z)
A Statistical Theory of Contrastive Pre-training and Multimodal Generative AI [18.974297347310287]
マルチモーダル生成AIシステムは、異なるモーダルの表現を学ぶために、対照的な事前学習に依存している。本稿では、下流タスクにおける対照的な事前学習の成功を説明するための理論的枠組みを開発する。
論文参考訳（メタデータ） (2025-01-08T17:47:06Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。 LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文参考訳（メタデータ） (2024-10-15T00:41:18Z)
Multi-agent Off-policy Actor-Critic Reinforcement Learning for Partially Observable Environments [30.280532078714455]
本研究では,強化学習のためのマルチエージェント・オフ・ポリティクス・アクター・クリティック・アルゴリズムにおいて,グローバルな状態を推定するソーシャル・ラーニング手法を提案する。社会的学習法により,世界状態が完全に観察された場合と推定された場合の最終的な結果の差が,社会的学習更新の適切な回数の反復を行う場合に,$varepsilon$-boundedとなることを示す。
論文参考訳（メタデータ） (2024-07-06T06:51:14Z)
Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文参考訳（メタデータ） (2024-03-28T15:22:29Z)
Contrastive learning-based agent modeling for deep reinforcement learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。 CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文参考訳（メタデータ） (2023-12-30T03:44:12Z)
Mingling Foresight with Imagination: Model-Based Cooperative Multi-Agent Reinforcement Learning [15.12491397254381]
本稿では,暗黙的なモデルに基づくマルチエージェント強化学習手法を提案する。この方法では,エージェントは学習した仮想環境と対話し,将来の予測状態に応じて現在の状態値を評価することができる。
論文参考訳（メタデータ） (2022-04-20T12:16:27Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-01-11T13:25:13Z)
Improving Robot Dual-System Motor Learning with Intrinsically Motivated Meta-Control and Latent-Space Experience Imagination [17.356402088852423]
本稿では,メタコントローラがモデルベースとモデルフリーの判断をオンラインに調停する,新しいデュアルシステムモーター学習手法を提案する。シミュレーションと実世界における視覚に基づくロボットグリップ学習におけるベースラインと最先端の手法に対する我々のアプローチを評価する。
論文参考訳（メタデータ） (2020-04-19T12:14:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。