論文の概要: Understanding Inverse Reinforcement Learning under Overparameterization: Non-Asymptotic Analysis and Global Optimality
- arxiv url: http://arxiv.org/abs/2503.17865v1
- Date: Sat, 22 Mar 2025 21:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:01.393637
- Title: Understanding Inverse Reinforcement Learning under Overparameterization: Non-Asymptotic Analysis and Global Optimality
- Title(参考訳): 過パラメータ化による逆強化学習の理解:非漸近解析とグローバル最適性
- Authors: Ruijia Zhang, Siliang Zeng, Chenliang Li, Alfredo Garcia, Mingyi Hong,
- Abstract要約: 我々のアルゴリズムは,特定のニューラルネットワーク構造の下で,最適報酬とポリシーを識別できることが示される。
これは、国際的最適性を確実に達成する非漸近収束保証を持つ最初のIRLアルゴリズムである。
- 参考スコア(独自算出の注目度): 52.906438147288256
- License:
- Abstract: The goal of the Inverse reinforcement learning (IRL) task is to identify the underlying reward function and the corresponding optimal policy from a set of expert demonstrations. While most IRL algorithms' theoretical guarantees rely on a linear reward structure, we aim to extend the theoretical understanding of IRL to scenarios where the reward function is parameterized by neural networks. Meanwhile, conventional IRL algorithms usually adopt a nested structure, leading to computational inefficiency, especially in high-dimensional settings. To address this problem, we propose the first two-timescale single-loop IRL algorithm under neural network parameterized reward and provide a non-asymptotic convergence analysis under overparameterization. Although prior optimality results for linear rewards do not apply, we show that our algorithm can identify the globally optimal reward and policy under certain neural network structures. This is the first IRL algorithm with a non-asymptotic convergence guarantee that provably achieves global optimality in neural network settings.
- Abstract(参考訳): 逆強化学習(IRL)タスクの目標は、一連の専門家によるデモンストレーションから、基礎となる報酬関数と対応する最適ポリシーを特定することである。
ほとんどのIRLアルゴリズムの理論的保証は線形報酬構造に依存しているが、ニューラルネットワークによって報酬関数がパラメータ化されるシナリオにIRLの理論的理解を拡張することを目指している。
一方、従来のIRLアルゴリズムはネスト構造を採用しており、特に高次元の設定において計算の非効率性をもたらす。
この問題に対処するため、ニューラルネットワークのパラメータ化報酬の下で、最初の2時間スケールシングルループIRLアルゴリズムを提案し、オーバーパラメータ化下での非漸近収束解析を提供する。
線形報酬に対する事前の最適性は適用されないが、ニューラルネットワーク構造下での最適報酬とポリシーをアルゴリズムが特定できることが示されている。
これは、ニューラルネットワーク設定におけるグローバルな最適性を確実に達成する非漸近収束保証を持つ最初のIRLアルゴリズムである。
関連論文リスト
- Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Parallel-in-Time Solutions with Random Projection Neural Networks [0.07282584715927627]
本稿では、常微分方程式の解法であるパラレアルの基本的な並列時間法の一つを考察し、ニューラルネットワークを粗いプロパゲータとして採用することにより拡張する。
提案アルゴリズムの収束特性を理論的に解析し,ローレンツ方程式やバーガースの方程式を含むいくつかの例に対して有効性を示す。
論文 参考訳(メタデータ) (2024-08-19T07:32:41Z) - Convergence of Implicit Gradient Descent for Training Two-Layer Physics-Informed Neural Networks [3.680127959836384]
暗黙の勾配降下(IGD)は、ある種のマルチスケール問題を扱う場合、共通勾配降下(GD)よりも優れる。
IGDは線形収束速度で大域的に最適解を収束することを示す。
論文 参考訳(メタデータ) (2024-07-03T06:10:41Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Finite-Time Analysis of Entropy-Regularized Neural Natural Actor-Critic
Algorithm [29.978816372127085]
ニューラルネットワーク近似を用いたNatural actor-critic (NAC) の有限時間解析を行った。
ニューラルネットワーク,正規化,最適化技術の役割を特定し,優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T02:13:29Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Particle Dual Averaging: Optimization of Mean Field Neural Networks with
Global Convergence Rate Analysis [40.762447301225926]
凸最適化における二重平均法を一般化する粒子二重平均法(PDA)を提案する。
提案手法の重要な応用は, 平均場系における2層ニューラルネットワークの最適化である。
平均場限界におけるニューラルネットワークはpdaによってグローバルに最適化できることを示す。
論文 参考訳(メタデータ) (2020-12-31T07:07:32Z) - A Dynamical View on Optimization Algorithms of Overparameterized Neural
Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。
その結果、ニューラルネットワークの収束挙動を利用することができる。
このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文 参考訳(メタデータ) (2020-10-25T17:10:22Z) - Neural Proximal/Trust Region Policy Optimization Attains Globally
Optimal Policy [119.12515258771302]
オーバーパラメトリゼーションを備えたPPOOの変種が,グローバルな最適ネットワークに収束することを示す。
我々の分析の鍵は、1次元の単調性の概念の下で無限勾配の反復であり、そこでは勾配はネットワークによって瞬く。
論文 参考訳(メタデータ) (2019-06-25T03:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。