論文の概要: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching
- arxiv url: http://arxiv.org/abs/2306.14079v1
- Date: Sat, 24 Jun 2023 23:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:02:03.238098
- Title: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching
- Title(参考訳): 勾配不確かさとの戦い:拡散スコアマッチングによるオフライン強化学習
- Authors: H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta,
Russ Tedrake
- Abstract要約: 勾配に基づく政策探索手法は,高次元での有効性から,有望な方向である。
我々は、不確実性計量が勾配で最小化される場合、安定してデータに収束しなければならないことを示す。
本研究では,高次元問題における一階計画を実現するためのスコアガイドプランニング(SGP)を提案する。
- 参考スコア(独自算出の注目度): 26.27271985473378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline optimization paradigms such as offline Reinforcement Learning (RL) or
Imitation Learning (IL) allow policy search algorithms to make use of offline
data, but require careful incorporation of uncertainty in order to circumvent
the challenges of distribution shift. Gradient-based policy search methods are
a promising direction due to their effectiveness in high dimensions; however,
we require a more careful consideration of how these methods interplay with
uncertainty estimation. We claim that in order for an uncertainty metric to be
amenable for gradient-based optimization, it must be (i) stably convergent to
data when uncertainty is minimized with gradients, and (ii) not prone to
underestimation of true uncertainty. We investigate smoothed distance to data
as a metric, and show that it not only stably converges to data, but also
allows us to analyze model bias with Lipschitz constants. Moreover, we
establish an equivalence between smoothed distance to data and data likelihood,
which allows us to use score-matching techniques to learn gradients of distance
to data. Importantly, we show that offline model-based policy search problems
that maximize data likelihood do not require values of likelihood; but rather
only the gradient of the log likelihood (the score function). Using this
insight, we propose Score-Guided Planning (SGP), a planning algorithm for
offline RL that utilizes score-matching to enable first-order planning in
high-dimensional problems, where zeroth-order methods were unable to scale, and
ensembles were unable to overcome local minima. Website:
https://sites.google.com/view/score-guided-planning/home
- Abstract(参考訳): オフライン強化学習(rl)や模倣学習(il)のようなオフライン最適化パラダイムは、オフラインデータを利用するポリシー検索アルゴリズムを可能にするが、分散シフトの課題を回避するために不確実性を慎重に組み込む必要がある。
勾配に基づくポリシー探索手法は,高次元での有効性が期待できるが,不確実性推定とどのように相互作用するか,より慎重に検討する必要がある。
我々は、不確実性計量が勾配に基づく最適化に有効であるためには、それは必要であると主張する。
(i)不確実性が勾配で最小化した場合、安定してデータに収束し、
(ii)真の不確実性を過小評価しがちではない。
我々は,データへのスムーズな距離を計量として検討し,安定的にデータに収束するだけでなく,モデルバイアスをリプシッツ定数で解析することができることを示した。
さらに,データ間距離の平滑化とデータ確率の等価性を確立することにより,データ間距離の勾配を学習するためのスコアマッチング手法を活用できる。
重要となるのは,データを最大化するオフラインモデルに基づくポリシ検索問題は,確率の値を必要とせず,ログ確率の勾配(スコア関数)のみを問題とすることである。
この知見を用いて,ゼロ階法がスケールできず,アンサンブルが局所ミニマを克服できない高次元問題において,スコアマッチングを利用したオフラインRLの計画アルゴリズムであるスコアガイドプランニング(SGP)を提案する。
Webサイト: https://sites.google.com/view/score-guided-planning/home
関連論文リスト
- FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - sqSGD: Locally Private and Communication Efficient Federated Learning [14.60645909629309]
Federated Learning(FL)は、分散データソースから機械学習モデルをトレーニングするテクニックである。
我々は,通信効率と高次元互換性に対処するsqSGDという勾配学習アルゴリズムを開発した。
実験の結果、sqSGDはローカルのプライバシー制約でLeNetやResNetのような大規模なモデルをうまく学習している。
論文 参考訳(メタデータ) (2022-06-21T17:45:35Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Regret minimization in stochastic non-convex learning via a
proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。
我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文 参考訳(メタデータ) (2020-10-13T09:22:21Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z) - Adaptive Gradient Sparsification for Efficient Federated Learning: An
Online Learning Approach [11.986523531539165]
フェデレーテッド・ラーニング(FL)は、地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。
勾配スペーシフィケーション(GS)を適用することができ、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。
本稿では,近距離通信とトレードオフを自動的に判定する新しいオンライン学習定式化とアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-14T13:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。