論文の概要: Nonparametric Bellman Mappings for Value Iteration in Distributed Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.16192v2
- Date: Wed, 08 Oct 2025 02:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:19.985059
- Title: Nonparametric Bellman Mappings for Value Iteration in Distributed Reinforcement Learning
- Title(参考訳): 分散強化学習における値反復のための非パラメトリックベルマンマッピング
- Authors: Yuki Akiyama, Konstantinos Slavakis,
- Abstract要約: 本稿では,分散強化学習(DRL)における値反復(VI)のためのベルマン写像(B-Maps)を提案する。
各エージェントは、そのプライベートデータから非パラメトリックなBマップを構築し、再生されたカーネルヒルベルト空間で表されるQ関数を操作する。
詳細な性能解析により,提案するDRLフレームワークは集中ノードの性能を効果的に近似することを示した。
- 参考スコア(独自算出の注目度): 8.324857108715007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces novel Bellman mappings (B-Maps) for value iteration (VI) in distributed reinforcement learning (DRL), where agents are deployed over an undirected, connected graph/network with arbitrary topology -- but without a centralized node, that is, a node capable of aggregating all data and performing computations. Each agent constructs a nonparametric B-Map from its private data, operating on Q-functions represented in a reproducing kernel Hilbert space, with flexibility in choosing the basis for their representation. Agents exchange their Q-function estimates only with direct neighbors, and unlike existing DRL approaches that restrict communication to Q-functions, the proposed framework also enables the transmission of basis information in the form of covariance matrices, thereby conveying additional structural details. Linear convergence rates are established for both Q-function and covariance-matrix estimates toward their consensus values, regardless of the network topology, with optimal learning rates determined by the ratio of the smallest positive eigenvalue (the graph's Fiedler value) to the largest eigenvalue of the graph Laplacian matrix. A detailed performance analysis further shows that the proposed DRL framework effectively approximates the performance of a centralized node, had such a node existed. Numerical tests on two benchmark control problems confirm the effectiveness of the proposed nonparametric B-Maps relative to prior methods. Notably, the tests reveal a counter-intuitive outcome: although the framework involves richer information exchange -- specifically through transmitting covariance matrices as basis information -- it achieves the desired performance at a lower cumulative communication cost than existing DRL schemes, underscoring the critical role of sharing basis information in accelerating the learning process.
- Abstract(参考訳): 本稿では,分散強化学習 (DRL) における値反復 (VI) のためのベルマン写像 (B-Maps) について紹介する。
各エージェントは、そのプライベートデータから非パラメトリックなB-マップを構築し、再生されたカーネルヒルベルト空間で表されるQ-関数を演算し、表現の基盤を選択する柔軟性を持つ。
エージェントはQ-関数の推定値を直接隣人とのみ交換し、Q-関数への通信を制限する既存のDRLアプローチとは異なり、提案フレームワークは共分散行列の形で基底情報の伝達を可能にし、さらなる構造的詳細を伝達する。
線形収束速度は、ネットワークトポロジに関係なく、Q関数と共分散行列の両方のコンセンサス値に対して確立され、グラフラプラシア行列の最大の固有値に対する最小の正の固有値(グラフのフィドラー値)の比で決定される最適学習速度が決定される。
さらに詳細な性能解析により,提案するDRLフレームワークは,そのようなノードが存在する集中ノードの性能を効果的に近似することを示した。
2つのベンチマーク制御問題の数値実験により,提案した非パラメトリックB-マップの有効性が従来法と比較された。
フレームワークは、特に共分散行列をベース情報として伝達することで、よりリッチな情報交換を伴うが、既存のDRLスキームよりも累積的な通信コストの低い所で所望のパフォーマンスを達成し、学習プロセスの加速において基礎情報の共有が重要な役割を担っている。
関連論文リスト
- Covariates-Adjusted Mixed-Membership Estimation: A Novel Network Model with Optimal Guarantees [3.6936359356095454]
本稿では,ネットワークにおける推定の問題に対処し,ネットワークから潜在混合メンバーシップ構造を効率的に推定することを目的とする。
本稿では,情報とノード共メンバシップモデルとの類似性の両方を取り入れた新しいモデルを提案する。
提案手法は類似度行列とフロベニウスノルムのエントリー損失の両方に対して最適精度が得られることを示す。
論文 参考訳(メタデータ) (2025-02-10T16:56:00Z) - Boosting the Performance of Decentralized Federated Learning via Catalyst Acceleration [66.43954501171292]
本稿では,Catalytics Accelerationを導入し,DFedCataと呼ばれる促進型分散フェデレート学習アルゴリズムを提案する。
DFedCataは、パラメータの不整合に対処するMoreauエンベロープ関数と、アグリゲーションフェーズを加速するNesterovの外挿ステップの2つの主要コンポーネントで構成されている。
実験により, CIFAR10/100における収束速度と一般化性能の両面において, 提案アルゴリズムの利点を実証した。
論文 参考訳(メタデータ) (2024-10-09T06:17:16Z) - Learning Compact Channel Correlation Representation for LiDAR Place Recognition [4.358456799125694]
我々は,LDAR位置認識のためのC3Rという,コンパクトなチャネル相関表現を学習するための新しい手法を提案する。
提案手法は,特徴行列をより小さなグループに分割し,グループ的な共分散行列を計算し,学習可能な集約戦略を用いて集約する。
大規模でパブリックな4つのLiDAR位置認識データセットについて広範な実験を行い、精度とロバスト性に対するアプローチの優位性を検証する。
論文 参考訳(メタデータ) (2024-09-24T09:40:22Z) - Robust Second-order LiDAR Bundle Adjustment Algorithm Using Mean Squared Group Metric [5.153195958837083]
我々は,LiDAR BAアルゴリズムの最適化目標を構築するために,新しい平均2乗群計量(MSGM)を提案する。
堅牢なカーネル関数を統合することで、BAアルゴリズムに関わるメトリクスを再重み付けし、ソリューションプロセスの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-03T12:53:39Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Rethinking Clustered Federated Learning in NOMA Enhanced Wireless
Networks [60.09912912343705]
本研究では,新しいクラスタ化フェデレーション学習(CFL)アプローチと,非独立かつ同一に分散した(非IID)データセットを統合することのメリットについて検討する。
データ分布における非IIDの度合いを測定する一般化ギャップの詳細な理論的解析について述べる。
非IID条件によって引き起こされる課題に対処する解決策は、特性の分析によって提案される。
論文 参考訳(メタデータ) (2024-03-05T17:49:09Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Distributed Variational Inference for Online Supervised Learning [15.038649101409804]
本稿では,スケーラブルな分散確率的推論アルゴリズムを提案する。
センサネットワークにおける連続変数、難解な後部データ、大規模リアルタイムデータに適用できる。
論文 参考訳(メタデータ) (2023-09-05T22:33:02Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - On Centralized and Distributed Mirror Descent: Exponential Convergence
Analysis Using Quadratic Constraints [8.336315962271396]
ミラー降下(MD)は、勾配降下(GD)を含むいくつかのアルゴリズムを仮定する強力な一階最適化手法である。
本研究では,強い凸と滑らかな問題に対して,集中型および分散型のMDの正確な収束率について検討した。
論文 参考訳(メタデータ) (2021-05-29T23:05:56Z) - Asymmetric Correlation Quantization Hashing for Cross-modal Retrieval [11.988383965639954]
クロスモーダルハッシュ法は異種モダリティ間の類似性検索において広く注目を集めている。
本稿では,ACQH法について述べる。
また,不均一なモダリティデータポイントのプロジェクション行列を学習し,クエリを潜在意味空間内の低次元実数値ベクトルに変換する。
学習された実数値コードワードの連続でデータベースポイントを示すために、粗大な方法で埋め込みを積み重ねた合成量子化を構成する。
論文 参考訳(メタデータ) (2020-01-14T04:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。