論文の概要: Neural Policy Style Transfer
- arxiv url: http://arxiv.org/abs/2402.00677v1
- Date: Thu, 1 Feb 2024 15:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 14:47:07.212867
- Title: Neural Policy Style Transfer
- Title(参考訳): ニューラル・ポリシー・スタイル・トランスファー
- Authors: Raul Fernandez-Fernandez, Juan G. Victores, Jennifer J. Gago, David
Estevez, Carlos Balaguer
- Abstract要約: スタイルトランスファーは、美術、自然言語処理、固定軌跡など、様々な分野で提案されている。
私たちはこの概念を、Deep Reinforcement Learningのインフラ内でポリシーを制御するためにスケールアップします。
ディープニューラルネットワークの表現力は、セカンダリタスクのエンコーディングを可能にする。
- 参考スコア(独自算出の注目度): 3.1158660854608824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Style Transfer has been proposed in a number of fields: fine arts, natural
language processing, and fixed trajectories. We scale this concept up to
control policies within a Deep Reinforcement Learning infrastructure. Each
network is trained to maximize the expected reward, which typically encodes the
goal of an action, and can be described as the content. The expressive power of
deep neural networks enables encoding a secondary task, which can be described
as the style. The Neural Policy Style Transfer (NPST) algorithm is proposed to
transfer the style of one policy to another, while maintaining the content of
the latter. Different policies are defined via Deep Q-Network architectures.
These models are trained using demonstrations through Inverse Reinforcement
Learning. Two different sets of user demonstrations are performed, one for
content and other for style. Different styles are encoded as defined by user
demonstrations. The generated policy is the result of feeding a content policy
and a style policy to the NPST algorithm. Experiments are performed in a
catch-ball game inspired by the Deep Reinforcement Learning classical Atari
games; and a real-world painting scenario with a full-sized humanoid robot,
based on previous works of the authors. The implementation of three different
Q-Network architectures (Shallow, Deep and Deep Recurrent Q-Network) to encode
the policies within the NPST framework is proposed and the results obtained in
the experiments with each of these architectures compared.
- Abstract(参考訳): スタイル転送は、ファインアート、自然言語処理、固定トラジェクタなど、様々な分野で提案されている。
私たちはこの概念を、深い強化学習基盤内でポリシーを制御するためにスケールアップします。
各ネットワークは、通常、アクションのゴールをエンコードし、コンテンツとして記述できる、期待される報酬を最大化するために訓練される。
ディープニューラルネットワークの表現力は、スタイルとして記述できる二次タスクのエンコーディングを可能にする。
ニューラル・ポリシー・スタイル・トランスファー(npst)アルゴリズムは、あるポリシーのスタイルを別のポリシーに転送するために提案されている。
異なるポリシーはディープqネットワークアーキテクチャによって定義されます。
これらのモデルは、逆強化学習によるデモンストレーションを使って訓練される。
2つの異なるユーザーデモが行われ、1つはコンテンツ用、もう1つはスタイル用である。
異なるスタイルは、ユーザデモで定義されたようにエンコードされる。
生成されたポリシーは、NPSTアルゴリズムにコンテンツポリシーとスタイルポリシーを供給した結果である。
実験は、Deep Reinforcement Learning Classic Atariゲームにインスパイアされたキャッチボールゲーム、および著者の以前の作品に基づいたフルサイズのヒューマノイドロボットによる実世界の絵画シナリオで実施される。
NPSTフレームワーク内のポリシーを符号化する3つの異なるQ-Networkアーキテクチャ(Shallow, Deep, Deep Recurrent Q-Network)の実装を提案し, それぞれのアーキテクチャを用いた実験の結果を比較した。
関連論文リスト
- AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。
そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文 参考訳(メタデータ) (2024-08-31T03:53:57Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - Residual Q-Learning: Offline and Online Policy Customization without
Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。
政策カスタマイズと呼ばれる新しい問題設定を定式化する。
本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文 参考訳(メタデータ) (2023-06-15T22:01:19Z) - Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。
階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。
H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。
我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文 参考訳(メタデータ) (2021-07-12T17:59:58Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。
課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文 参考訳(メタデータ) (2020-06-08T02:49:47Z) - Tree-Structured Policy based Progressive Reinforcement Learning for
Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。
ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文 参考訳(メタデータ) (2020-01-18T15:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。