論文の概要: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching
- arxiv url: http://arxiv.org/abs/2306.14079v2
- Date: Tue, 17 Oct 2023 03:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:08:47.713428
- Title: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via
Diffusion Score Matching
- Title(参考訳): 勾配不確かさとの戦い:拡散スコアマッチングによるオフライン強化学習
- Authors: H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta,
Russ Tedrake
- Abstract要約: 我々は不確実性指標としてデータへのスムーズな距離について検討し、2つの有益な性質を持つと主張している。
スコアマッチング技術を用いて,これらの勾配を効率的に学習できることを示す。
本研究では,高次元問題における一階計画を実現するためのスコアガイドプランニング(SGP)を提案する。
- 参考スコア(独自算出の注目度): 22.461036967440723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based methods enable efficient search capabilities in high
dimensions. However, in order to apply them effectively in offline optimization
paradigms such as offline Reinforcement Learning (RL) or Imitation Learning
(IL), we require a more careful consideration of how uncertainty estimation
interplays with first-order methods that attempt to minimize them. We study
smoothed distance to data as an uncertainty metric, and claim that it has two
beneficial properties: (i) it allows gradient-based methods that attempt to
minimize uncertainty to drive iterates to data as smoothing is annealed, and
(ii) it facilitates analysis of model bias with Lipschitz constants. As
distance to data can be expensive to compute online, we consider settings where
we need amortize this computation. Instead of learning the distance however, we
propose to learn its gradients directly as an oracle for first-order
optimizers. We show these gradients can be efficiently learned with
score-matching techniques by leveraging the equivalence between distance to
data and data likelihood. Using this insight, we propose Score-Guided Planning
(SGP), a planning algorithm for offline RL that utilizes score-matching to
enable first-order planning in high-dimensional problems, where zeroth-order
methods were unable to scale, and ensembles were unable to overcome local
minima. Website: https://sites.google.com/view/score-guided-planning/home
- Abstract(参考訳): 勾配法により高次元での効率的な探索が可能となる。
しかし、オフライン強化学習(RL)やImitation Learning(IL)のようなオフライン最適化パラダイムに効果的に適用するには、それらを最小化しようとする一階法との不確実性推定がどのように相互作用するかをより慎重に検討する必要がある。
不確実性指標としてデータとの距離の平滑化を研究し,2つの有益性があると主張した。
(i)不確実性を最小化しようとする勾配ベース手法により、平滑化をアニーリングしたデータにイテレートを流すことができる。
(ii)リプシッツ定数を用いたモデルバイアスの解析を容易にする。
データへの距離はオンラインで計算するのに費用がかかるので、この計算を償う必要がある設定を考えます。
しかし,距離を学習する代わりに,一階オプティマイザの託宣として,その勾配を直接学習することを提案する。
これらの勾配は,データ間の距離とデータ可能性の等価性を利用して,スコアマッチング手法により効率的に学習できることを示す。
この知見を用いて,ゼロ階法がスケールできず,アンサンブルが局所ミニマを克服できない高次元問題において,スコアマッチングを利用したオフラインRLの計画アルゴリズムであるスコアガイドプランニング(SGP)を提案する。
Webサイト: https://sites.google.com/view/score-guided-planning/home
関連論文リスト
- Stochastic Gradient Langevin Unlearning [20.546589699647416]
この研究はLangevin unlearningを提案している。
以上の結果から,ミニバッチの勾配更新は,フルバッチに比べてプライバシーと複雑さのトレードオフが優れていることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T18:43:58Z) - Linearized Wasserstein dimensionality reduction with approximation
guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。
我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。
また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文 参考訳(メタデータ) (2023-02-14T22:12:16Z) - sqSGD: Locally Private and Communication Efficient Federated Learning [14.60645909629309]
Federated Learning(FL)は、分散データソースから機械学習モデルをトレーニングするテクニックである。
我々は,通信効率と高次元互換性に対処するsqSGDという勾配学習アルゴリズムを開発した。
実験の結果、sqSGDはローカルのプライバシー制約でLeNetやResNetのような大規模なモデルをうまく学習している。
論文 参考訳(メタデータ) (2022-06-21T17:45:35Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。
そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。
後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文 参考訳(メタデータ) (2022-03-19T13:39:49Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Regret minimization in stochastic non-convex learning via a
proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。
我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文 参考訳(メタデータ) (2020-10-13T09:22:21Z) - Low-Rank Robust Online Distance/Similarity Learning based on the
Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。
オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。
提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文 参考訳(メタデータ) (2020-10-07T08:38:34Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z) - Adaptive Gradient Sparsification for Efficient Federated Learning: An
Online Learning Approach [11.986523531539165]
フェデレーテッド・ラーニング(FL)は、地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。
勾配スペーシフィケーション(GS)を適用することができ、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。
本稿では,近距離通信とトレードオフを自動的に判定する新しいオンライン学習定式化とアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-14T13:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。