論文の概要: Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.07463v1
- Date: Mon, 12 Jan 2026 12:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.369537
- Title: Puzzle it Out: Local-to-Global World Model for Offline Multi-Agent Reinforcement Learning
- Title(参考訳): オフライン型マルチエージェント強化学習のためのローカル・グローバル・ワールドモデル
- Authors: Sijia li, Xinran Li, Shibo Chen, Jun Zhang,
- Abstract要約: オフラインマルチエージェント強化学習(英語版) (MARL) は、事前収集されたデータセットを用いて、マルチエージェントシステムにおける協調的な意思決定問題を解決することを目的としている。
本稿では,予測不確実性によって合成データを適応的に重み付けし,ポリシーに対する近似誤差の伝搬を低減する不確実性対応サンプリング機構を提案する。
- 参考スコア(独自算出の注目度): 22.038062200642162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline multi-agent reinforcement learning (MARL) aims to solve cooperative decision-making problems in multi-agent systems using pre-collected datasets. Existing offline MARL methods primarily constrain training within the dataset distribution, resulting in overly conservative policies that struggle to generalize beyond the support of the data. While model-based approaches offer a promising solution by expanding the original dataset with synthetic data generated from a learned world model, the high dimensionality, non-stationarity, and complexity of multi-agent systems make it challenging to accurately estimate the transitions and reward functions in offline MARL. Given the difficulty of directly modeling joint dynamics, we propose a local-to-global (LOGO) world model, a novel framework that leverages local predictions-which are easier to estimate-to infer global state dynamics, thus improving prediction accuracy while implicitly capturing agent-wise dependencies. Using the trained world model, we generate synthetic data to augment the original dataset, expanding the effective state-action space. To ensure reliable policy learning, we further introduce an uncertainty-aware sampling mechanism that adaptively weights synthetic data by prediction uncertainty, reducing approximation error propagation to policies. In contrast to conventional ensemble-based methods, our approach requires only an additional encoder for uncertainty estimation, significantly reducing computational overhead while maintaining accuracy. Extensive experiments across 8 scenarios against 8 baselines demonstrate that our method surpasses state-of-the-art baselines on standard offline MARL benchmarks, establishing a new model-based baseline for generalizable offline multi-agent learning.
- Abstract(参考訳): オフライン型マルチエージェント強化学習(MARL)は,事前収集データセットを用いたマルチエージェントシステムにおける協調的意思決定問題を解決することを目的としている。
既存のオフラインのMARLメソッドは、主にデータセットの分布内でのトレーニングを制限し、データのサポート以上の一般化に苦労する過度に保守的なポリシーをもたらす。
モデルベースアプローチは、学習された世界モデルから生成された合成データで元のデータセットを拡張することで、有望なソリューションを提供する一方で、多エージェントシステムの高次元性、非定常性、複雑さにより、オフラインMARLにおける遷移と報酬関数を正確に推定することは困難である。
そこで我々は,グローバルな状態のダイナミクスを推定しやすく,エージェント依存を暗黙的に捉えながら予測精度を向上させる,ローカル・グローバル・ワールド・モデル(LOGO)を提案する。
トレーニングされた世界モデルを用いて、元のデータセットを増強する合成データを生成し、有効な状態-アクション空間を拡大する。
信頼性の高いポリシ学習を実現するために,予測不確実性によって合成データを適応的に重み付けし,ポリシーに対する近似誤差の伝搬を低減する不確実性対応サンプリング機構を導入する。
従来のアンサンブル法とは対照的に,精度を保ちながら計算オーバーヘッドを著しく低減し,不確実性推定のためのエンコーダの追加しか必要としない。
8つのベースラインに対する8つのシナリオにわたる大規模な実験により、我々の手法は標準的なオフラインMARLベンチマークの最先端ベースラインを超え、一般化可能なオフラインマルチエージェント学習のための新しいモデルベースラインを確立した。
関連論文リスト
- Heterogeneous Self-Supervised Acoustic Pre-Training with Local Constraints [64.15709757611369]
異種データを扱うための自己教師付き事前学習手法を提案する。
提案手法は、下流の教師付き微調整タスクに対する自己教師付き事前訓練モデルの適応性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2025-08-27T15:48:50Z) - AFLoRA: Adaptive Federated Fine-Tuning of Large Language Models with Resource-Aware Low-Rank Adaption [3.805501490912696]
フェデレートされた微調整は、分散データを使用して下流タスクにファンデーションモデルを適用するための有望なアプローチとして現れている。
大規模言語モデルのための適応的で軽量なファインチューニングフレームワークであるAFLoRAを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:35:32Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors [50.131271229165165]
Federated Learning (FL)は、分散機械学習のための有望なフレームワークとして登場した。
ユーザの行動、好み、デバイス特性の相違から生じるデータの異質性は、連合学習にとって重要な課題である。
本稿では,学習過程におけるクライアントベクトルに基づくアダプティブ重み付けを適応的に調整する手法であるAdaptive Weight Aggregation (FedAWA)を提案する。
論文 参考訳(メタデータ) (2025-03-20T04:49:40Z) - FedDUAL: A Dual-Strategy with Adaptive Loss and Dynamic Aggregation for Mitigating Data Heterogeneity in Federated Learning [12.307490659840845]
フェデレートラーニング(FL)は、様々なクライアントからローカルに最適化されたモデルと、統一されたグローバルモデルを組み合わせる。
FLは、性能劣化、収束の遅さ、グローバルモデルの堅牢性低下など、重大な課題に直面している。
これらの問題を効果的に解決するために、革新的なデュアルストラテジーアプローチを導入する。
論文 参考訳(メタデータ) (2024-12-05T18:42:29Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Fine-tuning Global Model via Data-Free Knowledge Distillation for
Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。
私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文 参考訳(メタデータ) (2022-03-17T11:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。