論文の概要: Trajectory-Class-Aware Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.01440v1
- Date: Mon, 03 Mar 2025 11:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:14:16.655697
- Title: Trajectory-Class-Aware Multi-Agent Reinforcement Learning
- Title(参考訳): 軌道対応型マルチエージェント強化学習
- Authors: Hyungho Na, Kwanghyeon Lee, Sumin Lee, Il-Chul Moon,
- Abstract要約: 我々はTRajectory-class-Aware Multi-Agent reinforcement learning (TRAMA)を紹介する。
TRAMAでは、エージェントは部分的な観察を通して経験している軌道のクラスを特定することでタスクタイプを認識する。
本稿では,トラジェクトリクラス上でエージェントワイズ予測を行うトラジェクトリクラス予測器を提案する。
- 参考スコア(独自算出の注目度): 10.230156872997874
- License:
- Abstract: In the context of multi-agent reinforcement learning, generalization is a challenge to solve various tasks that may require different joint policies or coordination without relying on policies specialized for each task. We refer to this type of problem as a multi-task, and we train agents to be versatile in this multi-task setting through a single training process. To address this challenge, we introduce TRajectory-class-Aware Multi-Agent reinforcement learning (TRAMA). In TRAMA, agents recognize a task type by identifying the class of trajectories they are experiencing through partial observations, and the agents use this trajectory awareness or prediction as additional information for action policy. To this end, we introduce three primary objectives in TRAMA: (a) constructing a quantized latent space to generate trajectory embeddings that reflect key similarities among them; (b) conducting trajectory clustering using these trajectory embeddings; and (c) building a trajectory-class-aware policy. Specifically for (c), we introduce a trajectory-class predictor that performs agent-wise predictions on the trajectory class; and we design a trajectory-class representation model for each trajectory class. Each agent takes actions based on this trajectory-class representation along with its partial observation for task-aware execution. The proposed method is evaluated on various tasks, including multi-task problems built upon StarCraft II. Empirical results show further performance improvements over state-of-the-art baselines.
- Abstract(参考訳): 多エージェント強化学習の文脈において、一般化は、各タスクに特有なポリシーに頼ることなく、異なる共同政策や調整を必要とする様々なタスクを解決するための課題である。
このタイプの問題をマルチタスクと呼び、単一のトレーニングプロセスを通じて、このマルチタスク設定において汎用性を持つようにエージェントを訓練する。
この課題に対処するために,TRajectory-class-Aware Multi-Agent reinforcement learning (TRAMA)を導入する。
TRAMAでは、エージェントは部分的な観察を通して経験している軌跡のクラスを特定してタスクタイプを認識し、エージェントはこの軌跡認識または予測をアクションポリシーの付加情報として利用する。
この目的のために,TRAMAの主な目的を3つ紹介する。
a) 量子化潜在空間を構築して,それらの間の重要な類似性を反映した軌道埋め込みを生成する。
(b)これらの軌道埋め込みを用いた軌道クラスタリング、及び
(c)トラジェクトリクラス対応ポリシーの構築。
特に
(c) トラジェクトリクラス予測器を導入し, トラジェクトリクラスに対してエージェントワイズ予測を行い, トラジェクトリクラス毎にトラジェクトリクラス表現モデルを設計する。
各エージェントは、タスク認識実行のための部分的な観察とともに、このトラジェクトリクラス表現に基づいてアクションを取る。
提案手法は,StarCraft II上に構築されたマルチタスク問題など,様々なタスクで評価される。
実験結果から,最先端のベースラインよりも性能が向上した。
関連論文リスト
- Making Universal Policies Universal [21.558271405324767]
我々は、政策学習を2つの段階に分離する普遍的な政策枠組みを構築している。
本稿では,すべてのエージェントからのトラジェクトリからなる共同データセット上で,プランナーを訓練する手法を提案する。
複数のエージェントからプールされたデータセットをトレーニングすることで、我々のユニバーサルポリシーはタスク完了精度を最大42.20%向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T17:59:55Z) - Solving Continual Offline RL through Selective Weights Activation on Aligned Spaces [52.649077293256795]
連続オフライン強化学習(CORL)は拡散に基づく生涯学習システムにおいて顕著な能力を示した。
本稿では,Vector-Quantized Continual diffuser(VQ-CD)を提案する。
論文 参考訳(メタデータ) (2024-10-21T07:13:45Z) - Transfer Reinforcement Learning in Heterogeneous Action Spaces using Subgoal Mapping [9.81076530822611]
本稿では,専門家エージェントポリシーと学習者エージェントポリシーのサブゴールマッピングを学習する手法を提案する。
タスクの分散のために,Long Short Term Memory (LSTM) ネットワークをトレーニングすることで,このサブゴールマッピングを学習する。
提案手法は,与えられたタスクの分布に基づくサブゴールマッピングを効果的に発見できることを実証する。
論文 参考訳(メタデータ) (2024-10-18T14:08:41Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Emergent Behaviors in Multi-Agent Target Acquisition [0.0]
追従回避ゲームにおける強化学習(RL)を用いたマルチエージェントシステム(MAS)のシミュレーションを行う。
我々は、RL訓練された追跡者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。
このアプローチの斬新さは、基礎となるデータ規則性を明らかにする影響力のある機能セットの作成を伴います。
論文 参考訳(メタデータ) (2022-12-15T15:20:58Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - LDSA: Learning Dynamic Subtask Assignment in Cooperative Multi-Agent
Reinforcement Learning [122.47938710284784]
協調型MARLにおける動的サブタスク代入(LDSA)を学習するための新しいフレームワークを提案する。
エージェントを異なるサブタスクに合理的に割り当てるために,能力に基づくサブタスク選択戦略を提案する。
LDSAは、より優れたコラボレーションのために、合理的で効果的なサブタスクの割り当てを学習していることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:46:16Z) - Towards Discriminative Representation: Multi-view Trajectory Contrastive
Learning for Online Multi-object Tracking [1.0474108328884806]
本稿では,多視点トラジェクティブ・コントラスト学習という戦略を提案し,各トラジェクトリを中心ベクトルとして表現する。
推論段階では、軌道表現の質をさらに高めるために類似性誘導型特徴融合戦略を開発する。
我々の手法は先行トラッカーを超え、新しい最先端のパフォーマンスを確立した。
論文 参考訳(メタデータ) (2022-03-27T04:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。