Fugu-MT 論文翻訳(概要): Neural Policy Style Transfer

論文の概要: Neural Policy Style Transfer

arxiv url: http://arxiv.org/abs/2402.00677v1
Date: Thu, 1 Feb 2024 15:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 14:47:07.212867
Title: Neural Policy Style Transfer
Title（参考訳）: ニューラル・ポリシー・スタイル・トランスファー
Authors: Raul Fernandez-Fernandez, Juan G. Victores, Jennifer J. Gago, David Estevez, Carlos Balaguer
Abstract要約: スタイルトランスファーは、美術、自然言語処理、固定軌跡など、様々な分野で提案されている。私たちはこの概念を、Deep Reinforcement Learningのインフラ内でポリシーを制御するためにスケールアップします。ディープニューラルネットワークの表現力は、セカンダリタスクのエンコーディングを可能にする。
参考スコア（独自算出の注目度）: 3.1158660854608824
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Style Transfer has been proposed in a number of fields: fine arts, natural language processing, and fixed trajectories. We scale this concept up to control policies within a Deep Reinforcement Learning infrastructure. Each network is trained to maximize the expected reward, which typically encodes the goal of an action, and can be described as the content. The expressive power of deep neural networks enables encoding a secondary task, which can be described as the style. The Neural Policy Style Transfer (NPST) algorithm is proposed to transfer the style of one policy to another, while maintaining the content of the latter. Different policies are defined via Deep Q-Network architectures. These models are trained using demonstrations through Inverse Reinforcement Learning. Two different sets of user demonstrations are performed, one for content and other for style. Different styles are encoded as defined by user demonstrations. The generated policy is the result of feeding a content policy and a style policy to the NPST algorithm. Experiments are performed in a catch-ball game inspired by the Deep Reinforcement Learning classical Atari games; and a real-world painting scenario with a full-sized humanoid robot, based on previous works of the authors. The implementation of three different Q-Network architectures (Shallow, Deep and Deep Recurrent Q-Network) to encode the policies within the NPST framework is proposed and the results obtained in the experiments with each of these architectures compared.
Abstract（参考訳）: スタイル転送は、ファインアート、自然言語処理、固定トラジェクタなど、様々な分野で提案されている。私たちはこの概念を、深い強化学習基盤内でポリシーを制御するためにスケールアップします。各ネットワークは、通常、アクションのゴールをエンコードし、コンテンツとして記述できる、期待される報酬を最大化するために訓練される。ディープニューラルネットワークの表現力は、スタイルとして記述できる二次タスクのエンコーディングを可能にする。ニューラル・ポリシー・スタイル・トランスファー(npst)アルゴリズムは、あるポリシーのスタイルを別のポリシーに転送するために提案されている。異なるポリシーはディープqネットワークアーキテクチャによって定義されます。これらのモデルは、逆強化学習によるデモンストレーションを使って訓練される。 2つの異なるユーザーデモが行われ、1つはコンテンツ用、もう1つはスタイル用である。異なるスタイルは、ユーザデモで定義されたようにエンコードされる。生成されたポリシーは、NPSTアルゴリズムにコンテンツポリシーとスタイルポリシーを供給した結果である。実験は、Deep Reinforcement Learning Classic Atariゲームにインスパイアされたキャッチボールゲーム、および著者の以前の作品に基づいたフルサイズのヒューマノイドロボットによる実世界の絵画シナリオで実施される。 NPSTフレームワーク内のポリシーを符号化する3つの異なるQ-Networkアーキテクチャ(Shallow, Deep, Deep Recurrent Q-Network)の実装を提案し, それぞれのアーキテクチャを用いた実験の結果を比較した。

関連論文リスト

Dense Policy: Bidirectional Autoregressive Learning of Actions [51.60428100831717]
本稿では,行動予測における自己回帰的政策の新たなパラダイムを確立するために,Dense Policyと呼ばれる双方向拡張学習手法を提案する。軽量なエンコーダのみのアーキテクチャを使用して、アクションシーケンスを初期単一フレームからターゲットシーケンスへ粗い方法で反復的に展開する。実験により、我々の密集した政策は自己回帰学習能力に優れており、既存の全体的生成ポリシーを超越できることが示された。
論文参考訳（メタデータ） (2025-03-17T14:28:08Z)
AdaNAT: Exploring Adaptive Policy for Token-Based Image Generation [65.01527698201956]
非自己回帰変換器(NAT)は、少数のステップで良好な品質の画像を合成することができる。そこで我々はAdaNATを提案する。AdaNATは、生成されたサンプルごとに適切なポリシーを自動的に設定する学習可能なアプローチである。
論文参考訳（メタデータ） (2024-08-31T03:53:57Z)
SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文参考訳（メタデータ） (2023-07-07T13:01:29Z)
Residual Q-Learning: Offline and Online Policy Customization without Value [53.47311900133564]
イミテーション・ラーニング(Imitation Learning, IL)は、実演から模倣行動を学ぶためのフレームワークである。政策カスタマイズと呼ばれる新しい問題設定を定式化する。本稿では,従来の政策を活かして定式化MDPを解くための新しいフレームワークであるResidual Q-learningを提案する。
論文参考訳（メタデータ） (2023-06-15T22:01:19Z)
Hierarchical Neural Dynamic Policies [50.969565411919376]
我々は,高次元画像入力から学習しながら,実世界の動的タスクの非表示構成への一般化の課題に取り組む。階層型ニューラル・ダイナミック・ポリシー(H-NDP)と呼ばれる階層型ディープ・ポリシー・ラーニング・フレームワークを用いる。 H-NDPは、状態空間の小さな領域における局所力学系に基づくポリシーを学習することでカリキュラムを形成する。我々は,H-NDPが模倣と強化学習の双方と容易に統合され,最先端の成果が得られることを示した。
論文参考訳（メタデータ） (2021-07-12T17:59:58Z)
Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。 NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文参考訳（メタデータ） (2020-12-04T18:59:32Z)
Continuous Action Reinforcement Learning from a Mixture of Interpretable Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文参考訳（メタデータ） (2020-06-10T16:02:08Z)
Randomized Policy Learning for Continuous State and Action MDPs [8.109579454896128]
我々は、連続状態と行動空間を持つMDPに対する一般的なポリシー反復アルゴリズムであるtextttRANDPOLを提案する。課題のある環境で数値性能を示し、それらをディープニューラルネットワークベースのアルゴリズムと比較する。
論文参考訳（メタデータ） (2020-06-08T02:49:47Z)
Tree-Structured Policy based Progressive Reinforcement Learning for Temporally Language Grounding in Video [128.08590291947544]
非トリミングビデオにおける一時的言語接地は、ビデオ理解における新たな課題である。ヒトの粗大な意思決定パラダイムにインスパイアされた我々は、新しい木構造政策に基づくプログレッシブ強化学習フレームワークを定式化した。
論文参考訳（メタデータ） (2020-01-18T15:08:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。