Fugu-MT 論文翻訳(概要): Sharp Analysis of Smoothed Bellman Error Embedding

論文の概要: Sharp Analysis of Smoothed Bellman Error Embedding

arxiv url: http://arxiv.org/abs/2007.03749v1
Date: Tue, 7 Jul 2020 19:27:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-12 19:08:07.611617
Title: Sharp Analysis of Smoothed Bellman Error Embedding
Title（参考訳）: Smoothed Bellman Error Embeddding のシャープ解析
Authors: Ahmed Touati and Pascal Vincent
Abstract要約: バッチモード強化学習におけるSBEEDの理論的挙動について検討する。使用済み関数クラスの表現力に依存するほぼ最適性能を保証する。
参考スコア（独自算出の注目度）: 17.296084954104415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The \textit{Smoothed Bellman Error Embedding} algorithm~\citep{dai2018sbeed}, known as SBEED, was proposed as a provably convergent reinforcement learning algorithm with general nonlinear function approximation. It has been successfully implemented with neural networks and achieved strong empirical results. In this work, we study the theoretical behavior of SBEED in batch-mode reinforcement learning. We prove a near-optimal performance guarantee that depends on the representation power of the used function classes and a tight notion of the distribution shift. Our results improve upon prior guarantees for SBEED in ~\citet{dai2018sbeed} in terms of the dependence on the planning horizon and on the sample size. Our analysis builds on the recent work of ~\citet{Xie2020} which studies a related algorithm MSBO, that could be interpreted as a \textit{non-smooth} counterpart of SBEED.
Abstract（参考訳）: SBEED として知られる \textit{Smoothed Bellman Error Embedding} アルゴリズム~\citep{dai2018sbeed} は、一般的な非線形関数近似を用いた有理収束強化学習アルゴリズムとして提案された。ニューラルネットワークでうまく実装され、強力な実証結果を得た。本研究では,バッチモード強化学習におけるSBEEDの理論的挙動について検討する。我々は,使用済み関数クラスの表現力と分布シフトの厳密な概念に依存する,ほぼ最適性能保証を証明した。この結果は, 計画の地平線とサンプルサイズに依存する点から, ~\citet{dai2018sbeed} におけるsbeedの事前保証により改善する。我々の分析は、SBEED の \textit{non-smooth} と解釈できる関連アルゴリズム MSBO を研究する ~\citet{Xie2020} の最近の研究に基づいている。

関連論文リスト

BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。しかし、これは現実世界の長い尾のデータ分布には適用できない。本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文参考訳（メタデータ） (2025-06-29T15:12:50Z)
Stochastic Forward-Forward Learning through Representational Dimensionality Compression [7.847900313045352]
フォワードフォワード(FF)アルゴリズムは、ニューラルネットワークのトレーニングのためのバックプロパゲーション(BP)のボトムアップ代替を提供する。本稿では, 2次統計構造を組み込むために, 変動するニューラルレスポンスの有効次元性(ED)を用いて, 次元圧縮と呼ばれる新しい良性関数を提案する。
論文参考訳（メタデータ） (2025-05-22T13:19:29Z)
Offline Reinforcement Learning via Inverse Optimization [3.0586855806896054]
連続状態と行動空間のための新しいオフライン強化学習(ORL)アルゴリズムを提案する。 ORL問題でよく見られる分布変化を緩和するために、我々は頑健で非因果予測制御の専門家を用いる。既存の文献と異なり、当社の堅牢なMPC専門家は、正確かつトラクタブルな凸修正を楽しみます。
論文参考訳（メタデータ） (2025-02-27T12:11:44Z)
Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文参考訳（メタデータ） (2024-10-25T20:50:32Z)
Sparsest Models Elude Pruning: An Exposé of Pruning's Current Capabilities [4.842973374883628]
プルーニングは大規模モデルを圧縮するための有望なアプローチとして現れてきたが、モデルの範囲を回復する効果はまだ検討されていない。我々は485,838の実験を行い、キュビストスパイラルと名付けられた合成データセットに最先端のプルーニングアルゴリズムを適用した。そこで本研究では,新たな探索アルゴリズムによって同定した,理想的なスパースネットワークと比較して,性能の差が顕著であった。
論文参考訳（メタデータ） (2024-07-04T17:33:15Z)
Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-09T03:55:09Z)
SHOT: Suppressing the Hessian along the Optimization Trajectory for Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。 SHOTはベースラインモデルの計算複雑性をあまり増やさない。本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文参考訳（メタデータ） (2023-10-04T11:43:08Z)
Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文参考訳（メタデータ） (2023-07-27T04:27:26Z)
Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文参考訳（メタデータ） (2023-01-03T04:09:38Z)
Fast and Provably Convergent Algorithms for Gromov-Wasserstein in Graph Learning [37.89640056739607]
2つのアルゴリズム、Bregman Alternating Projected Gradient (BAPG) とハイブリッドBregman Proximal Gradient (hBPG) は(ほぼ)収束することが証明されている。グラフアライメント,グラフ分割,形状マッチングなど,タスクのホスト上での手法の有効性を検証するための総合的な実験を行った。
論文参考訳（メタデータ） (2022-05-17T06:26:54Z)
Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent [95.94432031144716]
学習ネットワークの分析のための統合された非最適化フレームワークを提案する。既存の保証は勾配降下により統一することができることを示す。
論文参考訳（メタデータ） (2021-06-25T17:45:00Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。