Fugu-MT 論文翻訳(概要): Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching

論文の概要: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching

arxiv url: http://arxiv.org/abs/2306.14079v2
Date: Tue, 17 Oct 2023 03:17:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 21:08:47.713428
Title: Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching
Title（参考訳）: 勾配不確かさとの戦い:拡散スコアマッチングによるオフライン強化学習
Authors: H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ Tedrake
Abstract要約: 我々は不確実性指標としてデータへのスムーズな距離について検討し、2つの有益な性質を持つと主張している。スコアマッチング技術を用いて,これらの勾配を効率的に学習できることを示す。本研究では,高次元問題における一階計画を実現するためのスコアガイドプランニング(SGP)を提案する。
参考スコア（独自算出の注目度）: 22.461036967440723
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Gradient-based methods enable efficient search capabilities in high dimensions. However, in order to apply them effectively in offline optimization paradigms such as offline Reinforcement Learning (RL) or Imitation Learning (IL), we require a more careful consideration of how uncertainty estimation interplays with first-order methods that attempt to minimize them. We study smoothed distance to data as an uncertainty metric, and claim that it has two beneficial properties: (i) it allows gradient-based methods that attempt to minimize uncertainty to drive iterates to data as smoothing is annealed, and (ii) it facilitates analysis of model bias with Lipschitz constants. As distance to data can be expensive to compute online, we consider settings where we need amortize this computation. Instead of learning the distance however, we propose to learn its gradients directly as an oracle for first-order optimizers. We show these gradients can be efficiently learned with score-matching techniques by leveraging the equivalence between distance to data and data likelihood. Using this insight, we propose Score-Guided Planning (SGP), a planning algorithm for offline RL that utilizes score-matching to enable first-order planning in high-dimensional problems, where zeroth-order methods were unable to scale, and ensembles were unable to overcome local minima. Website: https://sites.google.com/view/score-guided-planning/home
Abstract（参考訳）: 勾配法により高次元での効率的な探索が可能となる。しかし、オフライン強化学習(RL)やImitation Learning(IL)のようなオフライン最適化パラダイムに効果的に適用するには、それらを最小化しようとする一階法との不確実性推定がどのように相互作用するかをより慎重に検討する必要がある。不確実性指標としてデータとの距離の平滑化を研究し,2つの有益性があると主張した。 (i)不確実性を最小化しようとする勾配ベース手法により、平滑化をアニーリングしたデータにイテレートを流すことができる。 (ii)リプシッツ定数を用いたモデルバイアスの解析を容易にする。データへの距離はオンラインで計算するのに費用がかかるので、この計算を償う必要がある設定を考えます。しかし,距離を学習する代わりに,一階オプティマイザの託宣として,その勾配を直接学習することを提案する。これらの勾配は,データ間の距離とデータ可能性の等価性を利用して,スコアマッチング手法により効率的に学習できることを示す。この知見を用いて,ゼロ階法がスケールできず,アンサンブルが局所ミニマを克服できない高次元問題において,スコアマッチングを利用したオフラインRLの計画アルゴリズムであるスコアガイドプランニング(SGP)を提案する。 Webサイト: https://sites.google.com/view/score-guided-planning/home

関連論文リスト

Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文参考訳（メタデータ） (2025-01-14T02:33:40Z)
FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文参考訳（メタデータ） (2024-10-08T12:16:12Z)
Linearized Wasserstein dimensionality reduction with approximation guarantees [65.16758672591365]
LOT Wassmap は、ワーッサーシュタイン空間の低次元構造を明らかにするための計算可能なアルゴリズムである。我々は,LOT Wassmapが正しい埋め込みを実現し,サンプルサイズの増加とともに品質が向上することを示す。また、LOT Wassmapがペア距離計算に依存するアルゴリズムと比較して計算コストを大幅に削減することを示す。
論文参考訳（メタデータ） (2023-02-14T22:12:16Z)
sqSGD: Locally Private and Communication Efficient Federated Learning [14.60645909629309]
Federated Learning(FL)は、分散データソースから機械学習モデルをトレーニングするテクニックである。我々は,通信効率と高次元互換性に対処するsqSGDという勾配学習アルゴリズムを開発した。実験の結果、sqSGDはローカルのプライバシー制約でLeNetやResNetのような大規模なモデルをうまく学習している。
論文参考訳（メタデータ） (2022-06-21T17:45:35Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)
Implicit Parameter-free Online Learning with Truncated Linear Models [51.71216912089413]
パラメータフリーアルゴリズムは、設定された学習率を必要としないオンライン学習アルゴリズムである。そこで我々は,「単純」なフレーバーを持つ新しい更新によって,切り離された線形モデルを活用できる新しいパラメータフリーアルゴリズムを提案する。後悔の新たな分解に基づいて、新しい更新は効率的で、各ステップで1つの勾配しか必要とせず、切り捨てられたモデルの最小値をオーバーシュートすることはない。
論文参考訳（メタデータ） (2022-03-19T13:39:49Z)
Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文参考訳（メタデータ） (2021-11-23T18:10:48Z)
Regret minimization in stochastic non-convex learning via a proximal-gradient approach [80.59047515124198]
機械学習やオペレーションの応用によって動機づけられた私たちは、オンラインで制約された問題を最小化するために、一階のオラクルフィードバックを後悔しています。我々は、近位複雑性低減技術を保証する新しいプロキシグレードを開発する。
論文参考訳（メタデータ） (2020-10-13T09:22:21Z)
Low-Rank Robust Online Distance/Similarity Learning based on the Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文参考訳（メタデータ） (2020-10-07T08:38:34Z)
FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文参考訳（メタデータ） (2020-05-22T23:07:42Z)
Resolving learning rates adaptively by locating Stochastic Non-Negative Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文参考訳（メタデータ） (2020-01-15T03:08:07Z)
Adaptive Gradient Sparsification for Efficient Federated Learning: An Online Learning Approach [11.986523531539165]
フェデレーテッド・ラーニング(FL)は、地理的に分散したデータを用いて機械学習モデルをトレーニングするための新興技術である。勾配スペーシフィケーション(GS)を適用することができ、完全な勾配の代わりに、勾配の重要な要素の小さなサブセットが通信される。本稿では,近距離通信とトレードオフを自動的に判定する新しいオンライン学習定式化とアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-01-14T13:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。