論文の概要: RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene
Generation
- arxiv url: http://arxiv.org/abs/2206.02544v1
- Date: Wed, 1 Jun 2022 08:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 21:30:20.558367
- Title: RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene
Generation
- Title(参考訳): RLSS:シーケンスシーン生成のための深層強化学習アルゴリズム
- Authors: Azimkhon Ostonov, Peter Wonka, Dominik L. Michels
- Abstract要約: 逐次シーン生成のための強化学習アルゴリズム RLSS を提案する。
学習過程に欲求探索アルゴリズムを組み込むことにより,効果的に行動空間を縮小する方法を検討する。
本研究では,屋内計画問題の解決とAngry Birdsレベルの生成により,多種多様なシーンを効率よく生成する手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 44.8048196322934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RLSS: a reinforcement learning algorithm for sequential scene
generation. This is based on employing the proximal policy optimization (PPO)
algorithm for generative problems. In particular, we consider how to
effectively reduce the action space by including a greedy search algorithm in
the learning process. Our experiments demonstrate that our method converges for
a relatively large number of actions and learns to generate scenes with
predefined design objectives. This approach is placing objects iteratively in
the virtual scene. In each step, the network chooses which objects to place and
selects positions which result in maximal reward. A high reward is assigned if
the last action resulted in desired properties whereas the violation of
constraints is penalized. We demonstrate the capability of our method to
generate plausible and diverse scenes efficiently by solving indoor planning
problems and generating Angry Birds levels.
- Abstract(参考訳): 逐次シーン生成のための強化学習アルゴリズム RLSS を提案する。
これは、生成問題に近似ポリシー最適化(PPO)アルゴリズムを用いることに基づいている。
特に,学習過程に欲求探索アルゴリズムを組み込むことにより,行動空間を効果的に削減する方法を検討する。
実験により,本手法は比較的多数のアクションに収束し,事前定義された設計目的のシーン生成を学習できることを実証した。
このアプローチでは、オブジェクトを仮想シーンに反復的に配置する。
各ステップで、ネットワークはどのオブジェクトを配置するかを選択し、最大報酬をもたらす位置を選択する。
最後のアクションが望ましい特性をもたらす場合、高い報酬が割り当てられるが、制約違反は罰せられる。
屋内計画問題の解決とAngry Birdsレベルの生成により,多種多様なシーンを効率よく生成できる手法を実証した。
関連論文リスト
- Sample Efficient Reinforcement Learning by Automatically Learning to
Compose Subtasks [3.1594865504808944]
サブタスクを表すラベルのセットを与えられた場合、サンプル効率のために報酬関数を自動的に構成するRLアルゴリズムを提案する。
我々は,様々なスパース・リワード環境におけるアルゴリズムの評価を行った。
論文 参考訳(メタデータ) (2024-01-25T15:06:40Z) - Clustering-based Domain-Incremental Learning [4.835091081509403]
連続学習における鍵となる課題は、いわゆる「破滅的な忘れ問題」である。
動的に更新されたサンプルや勾配の有限プールに対するオンラインクラスタリングに基づくアプローチを提案する。
提案手法の有効性と将来性を示す。
論文 参考訳(メタデータ) (2023-09-21T13:49:05Z) - Contextual Exploration Using a Linear Approximation Method Based on
Satisficing [0.0]
学習に必要な探索の量は、しばしば非常に多い。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
リスク感応性満足度(RS)の線形拡張である線形RS(LinRS)を提案する。
論文 参考訳(メタデータ) (2021-12-13T07:14:01Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - GRAC: Self-Guided and Self-Regularized Actor-Critic [24.268453994605512]
本稿では,ターゲットネットワークを必要とせず,分散に対処する自己正規化TD学習手法を提案する。
また,政策段階とゼロオーダー最適化を組み合わせた自己誘導型政策改善手法を提案する。
これにより、Q関数近似におけるローカルノイズに対する学習をより堅牢にし、アクターネットワークのアップデートをガイドします。
テスト対象のすべての環境において, OpenAI ジムタスクのスイート上で GRAC を評価する。
論文 参考訳(メタデータ) (2020-09-18T17:58:29Z) - Learning to Stop While Learning to Predict [85.7136203122784]
多くのアルゴリズムにインスパイアされたディープモデルは全ての入力に対して固定深度に制限される。
アルゴリズムと同様に、深いアーキテクチャの最適深さは、異なる入力インスタンスに対して異なるかもしれない。
本稿では, ステアブルアーキテクチャを用いて, この様々な深さ問題に対処する。
学習した深層モデルと停止ポリシーにより,多様なタスクセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-06-09T07:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。