論文の概要: Doubly-Asynchronous Value Iteration: Making Value Iteration Asynchronous
in Actions
- arxiv url: http://arxiv.org/abs/2207.01613v1
- Date: Mon, 4 Jul 2022 17:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:39:22.666146
- Title: Doubly-Asynchronous Value Iteration: Making Value Iteration Asynchronous
in Actions
- Title(参考訳): Duubly-Asynchronous Value Iteration: アクションで値イテレーションを非同期にする
- Authors: Tian Tian, Kenny Young, Richard S. Sutton
- Abstract要約: 二重非同期値反復(DAVI)を提案する。
DAVIは州から州や行動への非同期性の概念を一般化している。
DAVIが1つの確率で最適値関数に収束し、確率1デルタでほぼ幾何速度で収束し、ほぼ最適計算時間を返すことを示す。
- 参考スコア(独自算出の注目度): 12.874942771332776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value iteration (VI) is a foundational dynamic programming method, important
for learning and planning in optimal control and reinforcement learning. VI
proceeds in batches, where the update to the value of each state must be
completed before the next batch of updates can begin. Completing a single batch
is prohibitively expensive if the state space is large, rendering VI
impractical for many applications. Asynchronous VI helps to address the large
state space problem by updating one state at a time, in-place and in an
arbitrary order. However, Asynchronous VI still requires a maximization over
the entire action space, making it impractical for domains with large action
space. To address this issue, we propose doubly-asynchronous value iteration
(DAVI), a new algorithm that generalizes the idea of asynchrony from states to
states and actions. More concretely, DAVI maximizes over a sampled subset of
actions that can be of any user-defined size. This simple approach of using
sampling to reduce computation maintains similarly appealing theoretical
properties to VI without the need to wait for a full sweep through the entire
action space in each update. In this paper, we show DAVI converges to the
optimal value function with probability one, converges at a near-geometric rate
with probability 1-delta, and returns a near-optimal policy in computation time
that nearly matches a previously established bound for VI. We also empirically
demonstrate DAVI's effectiveness in several experiments.
- Abstract(参考訳): 価値反復 (vi) は基礎的な動的プログラミング手法であり、最適制御と強化学習の学習と計画に重要である。
VIはバッチで進行し、次のバッチの更新が始まる前に、各状態の値に対する更新を完了しなければならない。
単一バッチの完了は、状態空間が大きい場合、非常に高価であり、多くのアプリケーションではviが非現実的になる。
非同期VIは、一度に1つの状態、場所、任意の順序で更新することで、大きな状態空間の問題に対処するのに役立つ。
しかし、非同期 VI はアクション空間全体の最大化を必要とするため、大きなアクション空間を持つドメインに対しては非現実的である。
この問題に対処するために,状態から状態,行動への非同期性の概念を一般化する新しいアルゴリズムであるDAVIを提案する。
より具体的には、daviは任意のユーザ定義サイズのアクションのサンプルサブセットを最大化する。
計算量を削減するためにサンプリングを使用するこの単純なアプローチは、各更新でアクション空間全体を網羅するのを待つことなく、VIに同様の理論的性質をアピールする。
本稿では, davi を確率 1 の最適値関数に収束させ, 確率 1-デルタの近幾何速度で収束させ, vi の既定境界にほぼ一致する計算時間における最適に近い方針を返すことを示す。
また,いくつかの実験でdaviの有効性を実証した。
関連論文リスト
- NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z) - You Only Accept Samples Once: Fast, Self-Correcting Stochastic Variational Inference [0.0]
YOASOVI(ヨアソビ)は、ベイズ系大規模モデルにおける変分推論(VI)の高速で自己補正的な直観最適化を行うアルゴリズムである。
これを実現するために、各イテレーションで VI に使用される目的関数について利用可能な情報を活用し、通常のモンテカルロサンプリングを受け入れサンプリングに置き換える。
論文 参考訳(メタデータ) (2024-06-05T01:28:53Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Multistep Inverse Is Not All You Need [87.62730694973696]
実世界の制御環境では、観測空間は不要に高次元であり、時間関連ノイズにさらされることが多い。
したがって、観測空間を制御関連変数のより単純な空間にマッピングするエンコーダを学ぶことが望ましい。
本稿では,多段階逆予測と遅延フォワードモデルを組み合わせた新しいアルゴリズムACDFを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:36:01Z) - Distributed Extra-gradient with Optimal Complexity and Communication
Guarantees [60.571030754252824]
複数のプロセッサ/ワーカー/クライアントがローカルなデュアルベクトルにアクセス可能なマルチGPU設定において、モノトン変分不等式(VI)問題を考察する。
モノトーンVI問題に対するデファクトアルゴリズムであるExtra-gradientは、通信効率が良くないように設計されている。
そこで本稿では,VI の解法に適した非バイアスで適応的な圧縮手法である量子化一般化外部勾配 (Q-GenX) を提案する。
論文 参考訳(メタデータ) (2023-08-17T21:15:04Z) - Generative Time Series Forecasting with Diffusion, Denoise, and
Disentanglement [51.55157852647306]
時系列予測は多くのアプリケーションにおいて非常に重要な課題である。
実世界の時系列データが短時間に記録されることが一般的であり、これはディープモデルと限られたノイズのある時系列との間に大きなギャップをもたらす。
本稿では,生成モデルを用いた時系列予測問題に対処し,拡散,雑音,ゆがみを備えた双方向変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2023-01-08T12:20:46Z) - Amortized Variational Inference: A Systematic Review [0.0]
変分推論(VI)の中核となる原理は、複雑な後続確率密度の統計的推論問題を、トラクタブルな最適化問題に変換することである。
従来のVIアルゴリズムは大規模データセットには拡張性がなく、データポイントのアウトオブバウンドを容易に推測できない。
ブラックボックスやアモールタイズVIのようなこの分野の最近の進歩は、これらの問題に対処するのに役立っている。
論文 参考訳(メタデータ) (2022-09-22T09:45:10Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Sparse Attention Guided Dynamic Value Estimation for Single-Task
Multi-Scene Reinforcement Learning [16.910911657616005]
同じタスクから複数のレベル/シーンを持つ環境で深い強化学習エージェントを訓練することは、多くのアプリケーションにとって不可欠です。
マルチシーン環境におけるサンプルのばらつきは,各シーンを個別のMDPとして扱うことで最小化できると論じる。
また,従来のCNN/LSTMに基づく批判ネットワークでは捉えられていないマルチシーン環境における真のジョイント値関数が,マルチモーダル分布に従うことを示した。
論文 参考訳(メタデータ) (2021-02-14T23:30:13Z) - Differentiable Expected Hypervolume Improvement for Parallel
Multi-Objective Bayesian Optimization [11.956059322407437]
我々は、期待されるハイパー改善(EHVI)を用いた多目的BOのプログラミングモデルとハードウェアアクセラレーションの最近の進歩を活用する。
我々は、EHVIを並列な制約付き評価設定に拡張する取得関数であるq-Expected Hyper Improvement (qEHVI) の新規な定式化を導出する。
実験により,qEHVIは実運用シナリオの多くで計算可能であり,壁面時間のごく一部で最先端の多目的BOアルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2020-06-09T06:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。