論文の概要: Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation
- arxiv url: http://arxiv.org/abs/2603.02426v1
- Date: Mon, 02 Mar 2026 22:10:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.558321
- Title: Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation
- Title(参考訳): 関節リニア近似によるPersonalized Multi-Agent Average Reward TD-Learning
- Authors: Leo, Wang, Pengkun Yang, Lili Su,
- Abstract要約: エージェントの集合が異なる環境と相互作用する、パーソナライズされたマルチエージェント平均報酬TD学習について検討した。
共有線型表現が存在するような設定に焦点をあて、エージェントの最適重みは未知の線型部分空間にまとめて置かれる。
- 参考スコア(独自算出の注目度): 36.652579641421106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study personalized multi-agent average reward TD learning, in which a collection of agents interacts with different environments and jointly learns their respective value functions. We focus on the setting where there exists a shared linear representation, and the agents' optimal weights collectively lie in an unknown linear subspace. Inspired by the recent success of personalized federated learning (PFL), we study the convergence of cooperative single-timescale TD learning in which agents iteratively estimate the common subspace and local heads. We showed that this decomposition can filter out conflicting signals, effectively mitigating the negative impacts of ``misaligned'' signals, and achieving linear speedup. The main technical challenges lie in the heterogeneity, the Markovian sampling, and their intricate interplay in shaping error evolutions. Specifically, not only are the error dynamics of multiple variables closely interconnected, but there is also no direct contraction for the principal angle distance between the optimal subspace and the estimated subspace. We hope our analytical techniques can be useful to inspire research on deeper exploration into leveraging common structures. Experiments are provided to show the benefits of learning via a shared structure to the more general control problem.
- Abstract(参考訳): エージェントの集合が異なる環境と相互作用し、それぞれの値関数を共同で学習する、パーソナライズされたマルチエージェント平均報酬TD学習について検討する。
共有線型表現が存在するような設定に焦点をあて、エージェントの最適重みは未知の線型部分空間にまとめて置かれる。
近年のパーソナライズド・フェデレーション・ラーニング(PFL)の成功に触発されて,エージェントが共通部分空間と局所的頭部を反復的に推定する,協調的な単一時間的TD学習の収束について検討した。
この分解により、競合する信号をフィルタリングし、「ミスアライメント」信号の負の影響を効果的に軽減し、線形スピードアップを実現することができることを示した。
主な技術的課題は異質性、マルコフサンプリング、およびそれらの複雑な相互作用による誤り進化である。
具体的には、複数の変数の誤差ダイナミクスが密接に相互接続されているだけでなく、最適部分空間と推定部分空間の間の主角距離の直接収縮も存在しない。
我々の分析技術は、一般的な構造を活用するためのより深い探索の研究を促すのに役立つと期待している。
共有構造による学習の利点を、より一般的な制御問題に示す実験が提供されている。
関連論文リスト
- Calibrating Biased Distribution in VFM-derived Latent Space via Cross-Domain Geometric Consistency [52.52950138164424]
特徴抽出にオフザシェルフ(ビジョン)基礎モデルを利用する場合、特徴分布の幾何学的形状はドメインやデータセット間で顕著な伝達性を示す。
我々は,我々の幾何学的知識誘導分布キャリブレーションフレームワークを,フェデレーション学習とロングテール認識の2つの人気かつ挑戦的な設定で具体化する。
長期学習において、サンプル豊富なカテゴリから移動された幾何学的知識を利用して、サンプル・スカース・テールクラスの真の分布を復元する。
論文 参考訳(メタデータ) (2025-08-19T05:22:59Z) - Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。
現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。
情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文 参考訳(メタデータ) (2025-03-21T18:06:28Z) - SIGMA: Sheaf-Informed Geometric Multi-Agent Pathfinding [11.38008343729117]
多エージェントパス探索問題は、大規模物流および輸送におけるロボット展開における中核的な課題である。
分散化深層学習にせん断理論を適用した新しい枠組みを導入する。
提案手法は、最先端の学習ベースMAPFプランナよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-10T13:17:34Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - The Curse of Diversity in Ensemble-Based Exploration [7.209197316045156]
データ共有エージェントの多様なアンサンブルの訓練は、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。
私たちはこの現象を多様性の呪いと呼んでいる。
多様性の呪いに対処する表現学習の可能性を示す。
論文 参考訳(メタデータ) (2024-05-07T14:14:50Z) - Disentangled Latent Spaces Facilitate Data-Driven Auxiliary Learning [9.571499333904969]
補助的なタスクは、データが不足したり、関心の主タスクが極めて複雑である状況での学習を容易にする。
Detauxと呼ばれる新しいフレームワークを提案する。このフレームワークでは,非関連性のある新たな補助的分類タスクを見つけるために,弱い教師付き逆絡手順が使用される。
切り離し手順は表現レベルで機能し、主タスクに関連する変動を孤立した部分空間に分離する。
論文 参考訳(メタデータ) (2023-10-13T17:40:39Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Continual Learning in Low-rank Orthogonal Subspaces [86.36417214618575]
連続学習(CL)では、学習者は一連のタスクに直面して次々に到着し、学習経験が終わるとすべてのタスクを覚えることが目的である。
CLの以前の技術は、タスク間の干渉を減らすためにエピソードメモリ、パラメータ正規化、ネットワーク構造を使用していたが、最終的には、全てのアプローチが共同ベクトル空間で異なるタスクを学習する。
干渉を最小限に抑えるために互いに直交する異なる(低ランクな)ベクトル部分空間でタスクを学習することを提案する。
論文 参考訳(メタデータ) (2020-10-22T12:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。