Fugu-MT 論文翻訳(概要): Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search

論文の概要: Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search

arxiv url: http://arxiv.org/abs/2101.07579v1
Date: Tue, 19 Jan 2021 11:57:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-23 04:05:51.569143
Title: Spatial Assembly: Generative Architecture With Reinforcement Learning, Self Play and Tree Search
Title（参考訳）: 空間アセンブリ:強化学習,自己遊び,木探索を用いた生成的アーキテクチャ
Authors: Panagiotis Tigas and Tyson Hosmer
Abstract要約: 空間集合体生成における強化学習の活用について検討する。設計者が設定した目的を最大化するアセンブリを生成するポリシーを学ぶために,強化学習と自己再生を用いたアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 1.2691047660244335
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With this work, we investigate the use of Reinforcement Learning (RL) for the generation of spatial assemblies, by combining ideas from Procedural Generation algorithms (Wave Function Collapse algorithm (WFC)) and RL for Game Solving. WFC is a Generative Design algorithm, inspired by Constraint Solving. In WFC, one defines a set of tiles/blocks and constraints and the algorithm generates an assembly that satisfies these constraints. Casting the problem of generation of spatial assemblies as a Markov Decision Process whose states transitions are defined by WFC, we propose an algorithm that uses Reinforcement Learning and Self-Play to learn a policy that generates assemblies that maximize objectives set by the designer. Finally, we demonstrate the use of our Spatial Assembly algorithm in Architecture Design.
Abstract（参考訳）: 本研究では,空間集合生成における強化学習(Reinforcement Learning, RL)の利用について, 逐次生成アルゴリズム(Wave Function Collapse Algorithm, WFC)とゲーム解決のためのRLのアイデアを組み合わせて検討する。 WFC は Constraint Solving にインスパイアされた生成設計アルゴリズムである。 WFCでは、タイル/ブロックと制約のセットを定義し、アルゴリズムはこれらの制約を満たすアセンブリを生成する。状態遷移をwfcで定義したマルコフ決定プロセスとして空間集合の生成の問題を取り上げ,強化学習と自己遊びを用いて,設計者が設定した目標を最大化する集合を生成するポリシを学習するアルゴリズムを提案する。最後に,建築設計における空間集合アルゴリズムの活用を実演する。

関連論文リスト

On the Design and Analysis of LLM-Based Algorithms [74.7126776018275]
大規模言語モデル(LLM)はアルゴリズムのサブルーチンとして使用される。 LLMは素晴らしい経験的成功を収めた。提案フレームワークは,LLMアルゴリズムの進歩を約束する。
論文参考訳（メタデータ） (2024-07-20T07:39:07Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Discovering General Reinforcement Learning Algorithms with Adversarial Environment Design [54.39859618450935]
メタ学習型更新ルールは,広範囲のRLタスクで良好に機能するアルゴリズムの発見を期待して,実現可能であることを示す。 Learned Policy Gradient (LPG)のようなアルゴリズムによる印象的な初期結果にもかかわらず、これらのアルゴリズムが目に見えない環境に適用される場合、まだギャップが残っている。本研究では,メタ教師付き学習分布の特性が,これらのアルゴリズムの性能に与える影響について検討する。
論文参考訳（メタデータ） (2023-10-04T12:52:56Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Option-Aware Adversarial Inverse Reinforcement Learning for Robotic Control [44.77500987121531]
階層的模倣学習 (Hierarchical Imitation Learning, HIL) は, 長期作業における複雑度の高い動作を, 専門家による実証から再現するために提案されている。逆逆強化学習に基づく新しいHILアルゴリズムを開発した。また,目的をエンド・ツー・エンドで学習するための変分オートエンコーダフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-05T00:28:26Z)
Budget-Aware Sequential Brick Assembly with Efficient Constraint Satisfaction [63.672314717599285]
レゴブロックを用いた逐次レンガ組立体の課題に対処し、3D構造を創出する。特に、使用されるレンガの数が増えるにつれて、組み立て可能な構造物の数は指数関数的に増加する。本稿では,U字型スパース3次元畳み込みニューラルネットワークを用いて,次のブロック位置のスコアを予測する新しい手法を提案する。
論文参考訳（メタデータ） (2022-10-03T15:35:08Z)
RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene Generation [44.8048196322934]
逐次シーン生成のための強化学習アルゴリズム RLSS を提案する。学習過程に欲求探索アルゴリズムを組み込むことにより,効果的に行動空間を縮小する方法を検討する。本研究では,屋内計画問題の解決とAngry Birdsレベルの生成により,多種多様なシーンを効率よく生成する手法の有効性を実証する。
論文参考訳（メタデータ） (2022-06-01T08:39:33Z)
RL4ReAl: Reinforcement Learning for Register Allocation [2.449909275410288]
本稿では,多エージェント階層型強化学習を活用したレジスタ配置問題に対する新しい解を提案する。与えられた命令セットアーキテクチャの問題を正確に定義する制約を定式化し、生成したコードが意味的正当性を保持することを保証する。また、トレーニングと推論のためのモジュール的で効率的なコンパイラインターフェースを提供するgRPCベースのフレームワークも開発しています。
論文参考訳（メタデータ） (2022-04-05T06:30:03Z)
SeaPearl: A Constraint Programming Solver guided by Reinforcement Learning [0.0]
本稿では,Juliaで実装された新しい制約プログラミング問題であるSeaPearlの概念実証について述べる。 seapearlは強化学習を使用して分岐決定を学ぶために機械学習ルーチンをサポートする。産業用ソリューションとはまだ競合していないが、seapearlは柔軟でオープンソースなフレームワークを提供することを目指している。
論文参考訳（メタデータ） (2021-02-18T07:34:38Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文参考訳（メタデータ） (2020-06-26T14:30:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。