論文の概要: Learning Control by Iterative Inversion
- arxiv url: http://arxiv.org/abs/2211.01724v2
- Date: Tue, 30 May 2023 16:04:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 02:16:43.182126
- Title: Learning Control by Iterative Inversion
- Title(参考訳): 反復反転による学習制御
- Authors: Gal Leibovich, Guy Jacob, Or Avner, Gal Novik and Aviv Tamar
- Abstract要約: 本稿では,入力-出力対を持たない逆関数を学習するアルゴリズムを提案する。
反復的逆転は、関数のかなり厳密な条件下で、学習を正しく行うことができることを証明している。
報酬に基づく手法と比較して,多様な動作を模倣する性能が向上したことを報告した。
- 参考スコア(独自算出の注目度): 21.127717602247454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose $\textit{iterative inversion}$ -- an algorithm for learning an
inverse function without input-output pairs, but only with samples from the
desired output distribution and access to the forward function. The key
challenge is a $\textit{distribution shift}$ between the desired outputs and
the outputs of an initial random guess, and we prove that iterative inversion
can steer the learning correctly, under rather strict conditions on the
function. We apply iterative inversion to learn control. Our input is a set of
demonstrations of desired behavior, given as video embeddings of trajectories
(without actions), and our method iteratively learns to imitate trajectories
generated by the current policy, perturbed by random exploration noise. Our
approach does not require rewards, and only employs supervised learning, which
can be easily scaled to use state-of-the-art trajectory embedding techniques
and policy representations. Indeed, with a VQ-VAE embedding, and a
transformer-based policy, we demonstrate non-trivial continuous control on
several tasks. Further, we report an improved performance on imitating diverse
behaviors compared to reward based methods.
- Abstract(参考訳): 入力出力対を使わずに逆関数を学習するアルゴリズムであり、所望の出力分布からのサンプルとフォワード関数へのアクセスのみを提供する。
重要な課題は、所望の出力と初期ランダム推測の出力の間で$\textit{distribution shift}$である。
反復反転を学習制御に適用する。
提案手法は,トラジェクタの映像埋め込み(動作を使わずに)として所望の動作の一連のデモンストレーションを行い,ランダムな探索ノイズによって引き起こされる現在の方針によって生じるトラジェクタの模倣を反復的に学習する。
われわれのアプローチでは報酬は必要とせず、教師あり学習のみを採用しており、最先端の軌跡埋め込み技術や政策表現を利用することが容易にできる。
実際、VQ-VAE埋め込みとトランスフォーマーベースのポリシーにより、いくつかのタスクにおいて非自明な連続制御を示す。
さらに,報酬に基づく手法と比較して,多様な行動を模倣する性能が向上したことを報告する。
関連論文リスト
- In-Trajectory Inverse Reinforcement Learning: Learn Incrementally From An Ongoing Trajectory [10.438810967483438]
逆強化学習(IRL)は報酬関数とそれに対応するポリシーを学習することを目的としている。
現在のIRLの作業は、学習するために少なくとも1つの完全な軌跡を集めるのを待つ必要があるため、進行中の軌跡から漸進的に学習することはできない。
本稿では,現在進行中の軌跡の初期状態対を観察しながら,報酬関数と対応する政策を学習する問題について考察する。
論文 参考訳(メタデータ) (2024-10-21T03:16:32Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - Transfer Reinforcement Learning under Unobserved Contextual Information [16.895704973433382]
本研究では,環境条件によって状態遷移と報酬が影響を受ける伝達強化学習問題について検討する。
本研究では,デモンストレータのデータを用いて,遷移関数と報酬関数の因果境界を求める手法を開発した。
バイアスのない真値関数に収束する新しいQ学習アルゴリズムとUCB-Q学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-09T22:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。