Fugu-MT 論文翻訳(概要): Contrastive learning-based agent modeling for deep reinforcement learning

論文の概要: Contrastive learning-based agent modeling for deep reinforcement learning

arxiv url: http://arxiv.org/abs/2401.00132v3
Date: Mon, 28 Jul 2025 04:12:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 22:32:02.17432
Title: Contrastive learning-based agent modeling for deep reinforcement learning
Title（参考訳）: 深層強化学習のためのコントラスト学習に基づくエージェントモデリング
Authors: Wenhao Ma, Yu-Cheng Chang, Jie Yang, Yu-Kai Wang, Chin-Teng Lin,
Abstract要約: エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。 CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
参考スコア（独自算出の注目度）: 29.16867602635975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent systems often require agents to collaborate with or compete against other agents with diverse goals, behaviors, or strategies. Agent modeling is essential when designing adaptive policies for intelligent machine agents in multiagent systems, as this is the means by which the ego agent understands other agents' behavior and extracts their meaningful policy representations. These representations can be used to enhance the ego agent's adaptive policy which is trained by reinforcement learning. However, existing agent modeling approaches typically assume the availability of local observations from other agents (modeled agents) during training or a long observation trajectory for policy adaption. To remove these constrictive assumptions and improve agent modeling performance, we devised a Contrastive Learning-based Agent Modeling (CLAM) method that relies only on the local observations from the ego agent during training and execution. With these observations, CLAM is capable of generating consistent high-quality policy representations in real-time right from the beginning of each episode. We evaluated the efficacy of our approach in both cooperative and competitive multi-agent environments. Our experiments demonstrate that our approach achieves state-of-the-art on both cooperative and competitive tasks, highlighting the potential of contrastive learning-based agent modeling for enhancing reinforcement learning.
Abstract（参考訳）: マルチエージェントシステムでは、エージェントが様々な目標、行動、戦略を持つ他のエージェントと協力したり、競合したりする必要があることが多い。エージェントモデリングは、エージェントが他のエージェントの振る舞いを理解し、意味のあるポリシー表現を抽出する手段であるため、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。これらの表現は、強化学習によって訓練されたエゴエージェントの適応ポリシーを強化するために使用できる。しかし、既存のエージェントモデリング手法は、訓練中に他のエージェント(モデル化されたエージェント)からの局所的な観察が可能であることや、政策適応のための長い観察軌道を前提としている。本研究では,これらの制約的仮定を排除し,エージェントモデリング性能を向上させるために,訓練・実行中のエゴエージェントからの局所的な観察のみに依存するコントラスト学習ベースエージェントモデリング(CLAM)手法を開発した。これらの観察により、CLAMは各エピソードの冒頭からリアルタイムに一貫した高品質なポリシー表現を生成することができる。協調型・競争型マルチエージェント環境におけるアプローチの有効性について検討した。実験により,本手法が協調的・競争的両課題の最先端を達成し,強化学習の強化を目的とした対照的な学習ベースエージェントモデリングの可能性を強調した。

関連論文リスト

TransAM: Transformer-Based Agent Modeling for Multi-Agent Systems via Local Trajectory Encoding [2.08099858257632]
局所軌跡を埋め込み空間にエンコードする新しいトランスフォーマーモデルである textttTransAM を提案する。協調型,競争型,混合型マルチエージェント環境における提案手法の性能評価を行った。
論文参考訳（メタデータ） (2025-08-04T18:50:37Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文参考訳（メタデータ） (2023-10-18T19:43:38Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文参考訳（メタデータ） (2022-04-12T07:16:15Z)
Explaining Reinforcement Learning Policies through Counterfactual Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文参考訳（メタデータ） (2022-01-29T00:52:37Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文参考訳（メタデータ） (2020-11-12T19:04:26Z)
Agent Modelling under Partial Observability for Deep Reinforcement Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文参考訳（メタデータ） (2020-06-16T18:43:42Z)
Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文参考訳（メタデータ） (2020-01-29T13:38:59Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。