論文の概要: Neural Policy Style Transfer
- arxiv url: http://arxiv.org/abs/2402.00677v1
- Date: Thu, 1 Feb 2024 15:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:47:07.212867
- Title: Neural Policy Style Transfer
- Title(参考訳): ニューラル・ポリシー・スタイル・トランスファー
- Authors: Raul Fernandez-Fernandez, Juan G. Victores, Jennifer J. Gago, David
Estevez, Carlos Balaguer
- Abstract要約: スタイルトランスファーは、美術、自然言語処理、固定軌跡など、様々な分野で提案されている。
私たちはこの概念を、Deep Reinforcement Learningのインフラ内でポリシーを制御するためにスケールアップします。
ディープニューラルネットワークの表現力は、セカンダリタスクのエンコーディングを可能にする。
- 参考スコア(独自算出の注目度): 3.1158660854608824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Style Transfer has been proposed in a number of fields: fine arts, natural
language processing, and fixed trajectories. We scale this concept up to
control policies within a Deep Reinforcement Learning infrastructure. Each
network is trained to maximize the expected reward, which typically encodes the
goal of an action, and can be described as the content. The expressive power of
deep neural networks enables encoding a secondary task, which can be described
as the style. The Neural Policy Style Transfer (NPST) algorithm is proposed to
transfer the style of one policy to another, while maintaining the content of
the latter. Different policies are defined via Deep Q-Network architectures.
These models are trained using demonstrations through Inverse Reinforcement
Learning. Two different sets of user demonstrations are performed, one for
content and other for style. Different styles are encoded as defined by user
demonstrations. The generated policy is the result of feeding a content policy
and a style policy to the NPST algorithm. Experiments are performed in a
catch-ball game inspired by the Deep Reinforcement Learning classical Atari
games; and a real-world painting scenario with a full-sized humanoid robot,
based on previous works of the authors. The implementation of three different
Q-Network architectures (Shallow, Deep and Deep Recurrent Q-Network) to encode
the policies within the NPST framework is proposed and the results obtained in
the experiments with each of these architectures compared.
- Abstract(参考訳): スタイル転送は、ファインアート、自然言語処理、固定トラジェクタなど、様々な分野で提案されている。
私たちはこの概念を、深い強化学習基盤内でポリシーを制御するためにスケールアップします。
各ネットワークは、通常、アクションのゴールをエンコードし、コンテンツとして記述できる、期待される報酬を最大化するために訓練される。
ディープニューラルネットワークの表現力は、スタイルとして記述できる二次タスクのエンコーディングを可能にする。
ニューラル・ポリシー・スタイル・トランスファー(npst)アルゴリズムは、あるポリシーのスタイルを別のポリシーに転送するために提案されている。
異なるポリシーはディープqネットワークアーキテクチャによって定義されます。
これらのモデルは、逆強化学習によるデモンストレーションを使って訓練される。
2つの異なるユーザーデモが行われ、1つはコンテンツ用、もう1つはスタイル用である。
異なるスタイルは、ユーザデモで定義されたようにエンコードされる。
生成されたポリシーは、NPSTアルゴリズムにコンテンツポリシーとスタイルポリシーを供給した結果である。
実験は、Deep Reinforcement Learning Classic Atariゲームにインスパイアされたキャッチボールゲーム、および著者の以前の作品に基づいたフルサイズのヒューマノイドロボットによる実世界の絵画シナリオで実施される。
NPSTフレームワーク内のポリシーを符号化する3つの異なるQ-Networkアーキテクチャ(Shallow, Deep, Deep Recurrent Q-Network)の実装を提案し, それぞれのアーキテクチャを用いた実験の結果を比較した。
関連論文リスト
- SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Goal-Conditioned Generators of Deep Policies [14.946533606788758]
目的条件付きニューラルネット(NN)について検討し、コンテキスト固有の重み行列の形で深部NNポリシーを学習する。
NNジェネレータは、パラメータ空間の強力な探索とコマンド間の一般化を組み合わせて、より優れたポリシーを反復的に見つける。
実験は、単一の学習されたポリシージェネレータが、トレーニング中に見られるリターンを達成するポリシーを生成する方法を示している。
論文 参考訳(メタデータ) (2022-07-04T16:41:48Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z) - Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。
課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-08T02:49:47Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。