論文の概要: Forward and Backward Bellman equations improve the efficiency of EM
algorithm for DEC-POMDP
- arxiv url: http://arxiv.org/abs/2103.10752v1
- Date: Fri, 19 Mar 2021 11:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 14:23:00.075796
- Title: Forward and Backward Bellman equations improve the efficiency of EM
algorithm for DEC-POMDP
- Title(参考訳): 逆ベルマン方程式によるDEC-POMDPのEMアルゴリズムの効率化
- Authors: Takehiro Tottori and Tetsuya J. Kobayashi
- Abstract要約: DEC-POMDPのEMでは、前方のアルゴリズムは無限の地平線まで計算する必要がある。
ベルマンEMアルゴリズム(BEM)と修正ベルマンEMアルゴリズム(MBEM)を提案する。
数値実験により,MBEMの収束はEMの収束よりも速いことが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decentralized Partially Observable Markov Decision Process (DEC-POMDP) models
sequential decision making problems by a team of agents. Since the planning of
DEC-POMDP can be interpreted as the maximum likelihood estimation for the
latent variable model, DEC-POMDP can be solved by EM algorithm. However, in EM
for DEC-POMDP, the forward-backward algorithm needs to be calculated up to the
infinite horizon, which impairs the computational efficiency. In this paper, we
propose Bellman EM algorithm (BEM) and Modified Bellman EM algorithm (MBEM) by
introducing the forward and backward Bellman equations into EM. BEM can be more
efficient than EM because BEM calculates the forward and backward Bellman
equations instead of the forward-backward algorithm up to the infinite horizon.
However, BEM cannot always be more efficient than EM when the size of problems
is large because BEM calculates an inverse matrix. We circumvent this
shortcoming in MBEM by calculating the forward and backward Bellman equations
without the inverse matrix. Our numerical experiments demonstrate that the
convergence of MBEM is faster than that of EM.
- Abstract(参考訳): decentralized partial observable markov decision process (dec-pomdp)はエージェントチームによるシーケンシャルな意思決定問題をモデル化する。
DEC-POMDPの計画は潜在変数モデルの最大推定として解釈できるため、EMアルゴリズムによりDEC-POMDPを解くことができる。
しかし、DEC-POMDPのEMでは、前向きのアルゴリズムは無限水平線まで計算され、計算効率を損なう必要がある。
本稿では,前方および後方のベルマン方程式をemに導入することにより,ベルマンemアルゴリズム(bem)と修正ベルマンemアルゴリズム(mbem)を提案する。
BEMは、無限の地平線まで前向きのアルゴリズムではなく、前向きのベルマン方程式と後向きのベルマン方程式を計算するため、BEMよりも効率的である。
しかし、BEMは逆行列を計算するため、問題のサイズが大きければ、BEMよりも常に効率的であるとは限らない。
逆行列を持たないベルマン方程式を計算し、MBEMにおけるこの欠点を回避する。
数値実験により,MBEMの収束はEMよりも速いことが示された。
関連論文リスト
- Downlink MIMO Channel Estimation from Bits: Recoverability and Algorithm [47.7091447096969]
主な課題は、ユーザ機器(UE)からの限られたフィードバックから基地局(BS)のダウンリンクチャネル状態情報(CSI)を取得することである。
本稿では、UE側で圧縮とガウスディザリングに基づく量子化戦略を採用し、BS側で最大極大推定器(MLE)を定式化する単純なフィードバックフレームワークを提案する。
このアルゴリズムは、高次高調波探索(HR)ソルバをサブルーチンとして統合するために慎重に設計されており、この難しいMLE問題に効果的に取り組む鍵であることが判明した。
論文 参考訳(メタデータ) (2024-11-25T02:15:01Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics [39.07258580928359]
線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
論文 参考訳(メタデータ) (2024-06-17T17:52:38Z) - Tensor networks based quantum optimization algorithm [0.0]
最適化において、よく知られた古典的アルゴリズムの1つは電力反復である。
我々はこの落とし穴を回避するために量子化を提案する。
我々の手法はインスタンス非依存となり、量子コンピューティングの枠組みの中でブラックボックス最適化に対処することができる。
論文 参考訳(メタデータ) (2024-04-23T13:49:11Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Efficient and Accurate Learning of Mixtures of Plackett-Luce Models [5.216020588360421]
Plackett-Luce (PL) の混合モデルは理論的および実用的両方の研究領域である。
証明可能な精度で初期推定を行うアルゴリズムと、真のログ類似関数を効率的に最大化するEMアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-10T16:00:40Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Quantum Algorithms for Prediction Based on Ridge Regression [0.7612218105739107]
本稿では,リッジ回帰モデルに基づく量子アルゴリズムを提案する。
提案アルゴリズムは幅広い応用範囲を持ち,提案アルゴリズムは他の量子アルゴリズムのサブルーチンとして利用することができる。
論文 参考訳(メタデータ) (2021-04-27T11:03:52Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z) - Sinkhorn EM: An Expectation-Maximization algorithm based on entropic
optimal transport [11.374487003189467]
シンクホーンEM(Sinkhorn EM)は、エントロピー最適輸送に基づく混合物の予測(EM)アルゴリズムの変種である。
理論上, 実験上, sEMはEMより優れた挙動を示す。
論文 参考訳(メタデータ) (2020-06-30T06:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。