論文の概要: ZORMS-LfD: Learning from Demonstrations with Zeroth-Order Random Matrix Search
- arxiv url: http://arxiv.org/abs/2507.17096v1
- Date: Wed, 23 Jul 2025 00:23:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.812171
- Title: ZORMS-LfD: Learning from Demonstrations with Zeroth-Order Random Matrix Search
- Title(参考訳): ZORMS-LfD:ゼロ階ランダム行列探索によるデモから学ぶ
- Authors: Olivia Dry, Timothy L. Molloy, Wanxin Jin, Iman Shames,
- Abstract要約: ZORMS-LfDは、制約付き最適制御問題のコスト、制約、ダイナミクスを専門家によるデモンストレーションから学べるようにします。
ZORMS-LfDは、学習損失と計算時間の両方の観点から、最先端のメソッドのパフォーマンスと一致または上回る。
- 参考スコア(独自算出の注目度): 4.136096832822777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose Zeroth-Order Random Matrix Search for Learning from Demonstrations (ZORMS-LfD). ZORMS-LfD enables the costs, constraints, and dynamics of constrained optimal control problems, in both continuous and discrete time, to be learned from expert demonstrations without requiring smoothness of the learning-loss landscape. In contrast, existing state-of-the-art first-order methods require the existence and computation of gradients of the costs, constraints, dynamics, and learning loss with respect to states, controls and/or parameters. Most existing methods are also tailored to discrete time, with constrained problems in continuous time receiving only cursory attention. We demonstrate that ZORMS-LfD matches or surpasses the performance of state-of-the-art methods in terms of both learning loss and compute time across a variety of benchmark problems. On unconstrained continuous-time benchmark problems, ZORMS-LfD achieves similar loss performance to state-of-the-art first-order methods with an over $80$\% reduction in compute time. On constrained continuous-time benchmark problems where there is no specialized state-of-the-art method, ZORMS-LfD is shown to outperform the commonly used gradient-free Nelder-Mead optimization method.
- Abstract(参考訳): 本稿では,ZORMS-LfD(Zeroth-Order Random Matrix Search for Learning from Demonstrations)を提案する。
ZORMS-LfDは、制約された最適制御問題のコスト、制約、ダイナミクスを、学習空間の滑らかさを必要とせずに、連続的に、離散的に、専門家によるデモンストレーションから学習することができる。
対照的に、既存の最先端一階法では、状態、制御および/またはパラメータに関するコスト、制約、ダイナミクス、学習損失の存在と計算が必要である。
既存のほとんどの手法は離散時間に合わせて調整されており、連続時間における制約のある問題はカーソルの注意しか受け取らない。
我々は,ZORMS-LfDが,様々なベンチマーク問題における学習損失と計算時間の両方の観点から,最先端の手法の性能と一致しているか,あるいは上回っていることを実証する。
制約のない連続時間ベンチマーク問題では、ZORMS-LfDは80ドル以上の計算時間を削減した最先端の1次法と同様の損失性能を達成している。
ZORMS-LfDは、特定の最先端の手法が存在しない制約付き連続時間ベンチマーク問題において、一般的に用いられる勾配のないNelder-Mead最適化法よりも優れていることを示す。
関連論文リスト
- Regret-Free Reinforcement Learning for LTL Specifications [6.342676126028222]
本稿では,線形時間論理(LTL)仕様を未知の力学系に対して学習する最初のオンラインアルゴリズムを提案する。
我々の中心となる技術的成果は、MDP上の無限水平リーチ回避問題に対する後悔のない学習アルゴリズムである。
論文 参考訳(メタデータ) (2024-11-18T20:01:45Z) - Efficient Methods for Non-stationary Online Learning [61.63338724659592]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
また、さらに強化された測度、すなわち「インターバル・ダイナミック・リピート」を研究し、ラウンド当たりの射影数を$mathcalO(log2 T)$から$$$$に減らした。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Improving Probabilistic Bisimulation for MDPs Using Machine Learning [0.0]
本稿では,与えられたモデルの状態空間を確率的ビシミュレーションクラスに分割する新しい手法を提案する。
このアプローチは、最先端のツールと比較して、実行時間を著しく削減できる。
論文 参考訳(メタデータ) (2023-07-30T12:58:12Z) - Score Function Gradient Estimation to Widen the Applicability of Decision-Focused Learning [17.962860438133312]
決定中心学習(DFL)パラダイムは、例えば後悔など、タスク損失を直接最小化するためのトレーニングによって制限を克服する。
そこで我々は,このような仮定をせずに,任意のタスク損失に作用するスコア関数推定とスムースに組み合わせた代替手法を提案する。
実験の結果、一般的に多くのエポックを必要とするが、専門的な手法と同等であり、特にソリューションの品質、スケーラビリティ、あるいはその両方の観点から、制約の不確実性に悩む問題に対して、特にうまく機能していることが示されている。
論文 参考訳(メタデータ) (2023-07-11T12:32:13Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Continuous Episodic Control [7.021281655855703]
本稿では,連続行動空間の問題における逐次決定のための新しい非パラメトリックエピソードメモリアルゴリズムであるContinuous Episodic Control (CEC)を紹介する。
いくつかのスパース・リワード連続制御環境において,提案手法は現状のモデルレスRLやメモリ拡張RLアルゴリズムよりも高速に学習でき,長期性能も良好に維持できることを示した。
論文 参考訳(メタデータ) (2022-11-28T09:48:42Z) - An Accelerated Doubly Stochastic Gradient Method with Faster Explicit
Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。
まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文 参考訳(メタデータ) (2022-08-11T22:27:22Z) - The Role of Pseudo-labels in Self-training Linear Classifiers on High-dimensional Gaussian Mixture Data [3.1274367448459253]
自己学習 (ST) は単純だが効果的な半教師あり学習法である。
我々は,STが反復数に応じて異なる方法で一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-05-16T15:02:44Z) - Learning Mixtures of Linear Dynamical Systems [94.49754087817931]
そこで我々は,2段階のメタアルゴリズムを開発し,各基底構造LPSモデルを誤り$tildeO(sqrtd/T)$.sqrtd/T)まで効率的に復元する。
提案手法の有効性を検証し,数値実験による理論的研究を検証する。
論文 参考訳(メタデータ) (2022-01-26T22:26:01Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Continuous-Time Model-Based Reinforcement Learning [4.427447378048202]
本稿では,新しいアクター・クリティック手法に基づく連続時間MBRLフレームワークを提案する。
我々は、連続時間制御システムを明確に解決する新しいODE-RLスイート上で、本手法を実装し、テストする。
論文 参考訳(メタデータ) (2021-02-09T11:30:19Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。