論文の概要: Nonparametric Bellman Mappings for Value Iteration in Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.16192v1
- Date: Thu, 20 Mar 2025 14:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:27:00.281154
- Title: Nonparametric Bellman Mappings for Value Iteration in Distributed Reinforcement Learning
- Title(参考訳): 分散強化学習における値反復のための非パラメトリックベルマンマッピング
- Authors: Yuki Akiyama, Konstantinos Slavakis,
- Abstract要約: 本稿では,分散強化学習(DRL)における値反復(VI)のためのベルマン写像(B-Maps)を提案する。
B-マップは核ヒルベルト空間で表されるQ-函数で作用し、非パラメトリックな定式化を可能にする。
2つのよく知られた制御問題に関する数値実験は、提案した非パラメトリックB-マップの優れた性能を示す。
- 参考スコア(独自算出の注目度): 3.5051814539447474
- License:
- Abstract: This paper introduces novel Bellman mappings (B-Maps) for value iteration (VI) in distributed reinforcement learning (DRL), where multiple agents operate over a network without a centralized fusion node. Each agent constructs its own nonparametric B-Map for VI while communicating only with direct neighbors to achieve consensus. These B-Maps operate on Q-functions represented in a reproducing kernel Hilbert space, enabling a nonparametric formulation that allows for flexible, agent-specific basis function design. Unlike existing DRL methods that restrict information exchange to Q-function estimates, the proposed framework also enables agents to share basis information in the form of covariance matrices, capturing additional structural details. A theoretical analysis establishes linear convergence rates for both Q-function and covariance-matrix estimates toward their consensus values. The optimal learning rates for consensus-based updates are dictated by the ratio of the smallest positive eigenvalue to the largest one of the network's Laplacian matrix. Furthermore, each nodal Q-function estimate is shown to lie very close to the fixed point of a centralized nonparametric B-Map, effectively allowing the proposed DRL design to approximate the performance of a centralized fusion center. Numerical experiments on two well-known control problems demonstrate the superior performance of the proposed nonparametric B-Maps compared to prior methods. Notably, the results reveal a counter-intuitive finding: although the proposed approach involves greater information exchange -- specifically through the sharing of covariance matrices -- it achieves the desired performance with lower cumulative communication cost than existing DRL schemes, highlighting the crucial role of basis information in accelerating the learning process.
- Abstract(参考訳): 本稿では,分散強化学習 (DRL) における値反復 (VI) のためのベルマン写像 (B-Maps) を提案する。
各エージェントは、コンセンサスを達成するために直接隣人とのみ通信しながら、独自の非パラメトリックなB-マップをVIのために構築する。
これらの B-マップは、再現されたカーネルヒルベルト空間で表されるQ-函数を演算し、柔軟でエージェント固有の基底関数の設計を可能にする非パラメトリックな定式化を可能にする。
情報交換をQ関数推定に制限する既存のDRL法とは異なり、提案フレームワークでは、エージェントが共分散行列の形で基底情報を共有でき、構造の詳細を付加することができる。
理論的解析により、Q-関数と共分散行列の推定の両方に対する線形収束速度が、それらのコンセンサス値に対して確立される。
コンセンサスに基づく更新の最適学習率は、ネットワークのラプラシア行列の最大値に対する最小の正の固有値の比率によって決定される。
さらに、各能動Q関数の推定値は、集中型非パラメトリックB-Mapの固定点に非常に近いことが示され、提案したDRL設計により、集中型核融合中心の性能を近似することができる。
2つのよく知られた制御問題に関する数値実験は、提案した非パラメトリックB-マップの先行手法と比較して優れた性能を示す。
特に, 提案手法は, 共分散行列の共有により, 情報交換量を大きくするが, 既存のDRL方式よりも累積的な通信コストを低くして, 所望のパフォーマンスを達成し, 学習プロセスの促進における基礎情報の重要な役割を浮き彫りにする。
関連論文リスト
- Covariates-Adjusted Mixed-Membership Estimation: A Novel Network Model with Optimal Guarantees [3.6936359356095454]
本稿では,ネットワークにおける推定の問題に対処し,ネットワークから潜在混合メンバーシップ構造を効率的に推定することを目的とする。
本稿では,情報とノード共メンバシップモデルとの類似性の両方を取り入れた新しいモデルを提案する。
提案手法は類似度行列とフロベニウスノルムのエントリー損失の両方に対して最適精度が得られることを示す。
論文 参考訳(メタデータ) (2025-02-10T16:56:00Z) - Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。
DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。
実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文 参考訳(メタデータ) (2024-10-09T06:17:16Z) - Learning Compact Channel Correlation Representation for LiDAR Place Recognition [4.358456799125694]
我々は,LDAR位置認識のためのC3Rという,コンパクトなチャネル相関表現を学習するための新しい手法を提案する。
提案手法は,特徴行列をより小さなグループに分割し,グループ的な共分散行列を計算し,学習可能な集約戦略を用いて集約する。
大規模でパブリックな4つのLiDAR位置認識データセットについて広範な実験を行い、精度とロバスト性に対するアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2024-09-24T09:40:22Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Rethinking Clustered Federated Learning in NOMA Enhanced Wireless
Networks [60.09912912343705]
本研究では,新しいクラスタ化フェデレーション学習(CFL)アプローチと,非独立かつ同一に分散した(非IID)データセットを統合することのメリットについて検討する。
データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。
非IID条件によって引き起こされる課題に対処する解決策は、特性の分析によって提案される。
論文 参考訳(メタデータ) (2024-03-05T17:49:09Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Distributed Variational Inference for Online Supervised Learning [15.038649101409804]
本稿では,スケーラブルな分散確率的推論アルゴリズムを提案する。
センサネットワークにおける連続変数、難解な後部データ、大規模リアルタイムデータに適用できる。
論文 参考訳(メタデータ) (2023-09-05T22:33:02Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - On Centralized and Distributed Mirror Descent: Exponential Convergence
Analysis Using Quadratic Constraints [8.336315962271396]
ミラー降下(MD)は、勾配降下(GD)を含むいくつかのアルゴリズムを仮定する強力な一階最適化手法である。
本研究では,強い凸と滑らかな問題に対して,集中型および分散型のMDの正確な収束率について検討した。
論文 参考訳(メタデータ) (2021-05-29T23:05:56Z) - Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval [11.988383965639954]
クロスモーダルハッシュ法は異種モダリティ間の類似性検索において広く注目を集めている。
本稿では,ACQH法について述べる。
また,不均一なモダリティデータポイントのプロジェクション行列を学習し,クエリを潜在意味空間内の低次元実数値ベクトルに変換する。
学習された実数値コードワードの連続でデータベースポイントを示すために、粗大な方法で埋め込みを積み重ねた合成量子化を構成する。
論文 参考訳(メタデータ) (2020-01-14T04:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。