論文の概要: Learning Control by Iterative Inversion
- arxiv url: http://arxiv.org/abs/2211.01724v1
- Date: Thu, 3 Nov 2022 11:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:44:57.803301
- Title: Learning Control by Iterative Inversion
- Title(参考訳): 反復反転による学習制御
- Authors: Gal Leibovich, Guy Jacob, Or Avner, Gal Novik and Aviv Tamar
- Abstract要約: 我々は、制御のための学習を$textitinverse問題として定式化し、動的システムを反転させ、望ましい振る舞いをもたらすアクションを与える。
この定式化の主な課題は、$textitdistribution shift$ -- 学習エージェントは、実行可能なトラジェクトリの前方マッピングのみを観察するが、異なる望ましい振る舞いに対応する入力出力の逆マッピングを学習する必要がある。
私たちは、$textititerative inversion$という分布シフトを伴う逆問題に対する一般的なレシピを提案し、現在の入力分布(政治)の下で逆写像を学習し、それを利用します。
- 参考スコア(独自算出の注目度): 21.127717602247454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We formulate learning for control as an $\textit{inverse problem}$ --
inverting a dynamical system to give the actions which yield desired behavior.
The key challenge in this formulation is a $\textit{distribution shift}$ -- the
learning agent only observes the forward mapping (its actions' consequences) on
trajectories that it can execute, yet must learn the inverse mapping for
inputs-outputs that correspond to a different, desired behavior. We propose a
general recipe for inverse problems with a distribution shift that we term
$\textit{iterative inversion}$ -- learn the inverse mapping under the current
input distribution (policy), then use it on the desired output samples to
obtain new inputs, and repeat. As we show, iterative inversion can converge to
the desired inverse mapping, but under rather strict conditions on the mapping
itself.
We next apply iterative inversion to learn control. Our input is a set of
demonstrations of desired behavior, given as video embeddings of trajectories,
and our method iteratively learns to imitate trajectories generated by the
current policy, perturbed by random exploration noise. We find that constantly
adding the demonstrated trajectory embeddings $\textit{as input}$ to the policy
when generating trajectories to imitate, a-la iterative inversion, steers the
learning towards the desired trajectory distribution. To the best of our
knowledge, this is the first exploration of learning control from the viewpoint
of inverse problems, and our main advantage is simplicity -- we do not require
rewards, and only employ supervised learning, which easily scales to
state-of-the-art trajectory embedding techniques and policy representations.
With a VQ-VAE embedding, and a transformer-based policy, we demonstrate
non-trivial continuous control on several tasks. We also report improved
performance on imitating diverse behaviors compared to reward based methods.
- Abstract(参考訳): 制御のための学習を$\textit{inverse problem}$-inverting a dynamical system to give the action that yield desired behavior として定式化する。
この定式化における重要な課題は$\textit{distribution shift}$ -- 学習エージェントは実行可能な軌道上でのみ前方マッピング(アクションの結果)を観察し、異なる望ましい振る舞いに対応する入力出力の逆マッピングを学ばなければならない。
分布シフトを伴う逆問題に対する一般的なレシピを提案する。$\textit{iterative inversion}$ -- 現在の入力分布(policy)の下で逆マッピングを学び、所望の出力サンプルで使用して新しい入力を取得し、繰り返す。
このように、反復反転は所望の逆写像に収束するが、写像自体の厳密な条件下では収束する。
次に、制御を学ぶために反復反転を適用する。
提案手法は,トラジェクタの映像埋め込みとして与えられた所望の動作の一連のデモンストレーションであり,ランダムな探索ノイズによって引き起こされる現在の方針によって生じるトラジェクタの模倣を反復的に学習する。
a-la反復反転(a-la iterative inversion)を模倣するトラジェクタを生成する場合、常に実証された軌道が$\textit{as input}$をポリシーに埋め込むことで、望ましい軌道分布への学習が促進される。
私たちの知識を最大限に活用するために、これは逆問題の観点から学習制御を初めて探求するものであり、その主な利点は単純さである -- 報酬は必要とせず、教師付き学習のみを採用し、最先端の軌道埋め込み技術や政策表現に容易にスケールできる。
VQ-VAE埋め込みとトランスフォーマーベースのポリシーにより、いくつかのタスクにおいて非自明な連続制御を示す。
また,報酬に基づく手法と比較して,多様な動作を模倣する性能の向上も報告した。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - In-Trajectory Inverse Reinforcement Learning: Learn Incrementally Before An Ongoing Trajectory Terminates [10.438810967483438]
逆強化学習(IRL)は報酬関数とそれに対応するポリシーを学習することを目的としている。
現在のIRLの作業は、学習するために少なくとも1つの完全な軌跡を集めるのを待つ必要があるため、進行中の軌跡から漸進的に学習することはできない。
本稿では,現在進行中の軌跡の初期状態対を観察しながら,報酬関数と対応する政策を学習する問題について考察する。
論文 参考訳(メタデータ) (2024-10-21T03:16:32Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z) - Episodic Self-Imitation Learning with Hindsight [7.743320290728377]
エピソード自己像学習は、軌道選択モジュールと適応的損失関数を備えた新しい自己像アルゴリズムである。
更新の各エピソードから不正なサンプルをフィルタリングするために選択モジュールが導入された。
エピソード自己イメージ学習は、連続的な行動空間を持つ実世界の問題に適用できる可能性がある。
論文 参考訳(メタデータ) (2020-11-26T20:36:42Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。