論文の概要: OID-PPO: Optimal Interior Design using Proximal Policy Optimization by Transforming Design Guidelines into Reward Functions
- arxiv url: http://arxiv.org/abs/2508.00364v1
- Date: Fri, 01 Aug 2025 06:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.764066
- Title: OID-PPO: Optimal Interior Design using Proximal Policy Optimization by Transforming Design Guidelines into Reward Functions
- Title(参考訳): OID-PPO:設計ガイドラインを逆関数に変換することによる近似ポリシー最適化を用いた最適内部設計
- Authors: Chanyoung Yoon, Sangbong Yoo, Soobin Yim, Chansoo Kim, Yun Jang,
- Abstract要約: 近似ポリシー最適化を用いた最適内部設計のための新しいRLフレームワークであるOID-PPOを提案する。
OID-PPOは、専門家が定義した機能ガイドラインと視覚ガイドラインを構造化報酬関数に統合する。
OID-PPOは、様々な部屋の形状や家具構成の異なる実験により、レイアウト品質と計算効率の観点から、最先端の手法を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 2.880083169515962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing residential interiors strongly impacts occupant satisfaction but remains challenging due to unstructured spatial layouts, high computational demands, and reliance on expert knowledge. Existing methods based on optimization or deep learning are either computationally expensive or constrained by data scarcity. Reinforcement learning (RL) approaches often limit furniture placement to discrete positions and fail to incorporate design principles adequately. We propose OID-PPO, a novel RL framework for Optimal Interior Design using Proximal Policy Optimization, which integrates expert-defined functional and visual guidelines into a structured reward function. OID-PPO utilizes a diagonal Gaussian policy for continuous and flexible furniture placement, effectively exploring latent environmental dynamics under partial observability. Experiments conducted across diverse room shapes and furniture configurations demonstrate that OID-PPO significantly outperforms state-of-the-art methods in terms of layout quality and computational efficiency. Ablation studies further demonstrate the impact of structured guideline integration and reveal the distinct contributions of individual design constraints.
- Abstract(参考訳): 住宅内装の設計は、居住者の満足度に強く影響するが、非構造的な空間配置、高い計算要求、専門家の知識への依存などにより、依然として困難である。
最適化やディープラーニングに基づく既存の手法は、計算コストがかかるか、データ不足によって制約される。
強化学習(RL)アプローチはしばしば家具配置を個別の位置に制限し、設計原則を適切に組み込むことができない。
提案するOID-PPOは,専門家が定義した機能的および視覚的ガイドラインを構造化報酬関数に統合した,最適内部設計のための新しいRLフレームワークである。
OID-PPOは、連続的でフレキシブルな家具配置に対角的なガウス的ポリシーを利用し、部分観測可能性の下で潜在環境力学を効果的に探求する。
OID-PPOは、様々な部屋の形状や家具構成にまたがる実験により、レイアウトの質や計算効率において、最先端の手法を著しく上回ることを示した。
アブレーション研究は、構造化されたガイドラインの統合の影響をさらに示し、個々の設計制約の明確な貢献を明らかにしている。
関連論文リスト
- Interpretable SHAP-bounded Bayesian Optimization for Underwater Acoustic Metamaterial Coating Design [0.0]
我々は水中音響コーティングを最適化するための解釈可能性情報ベイズ最適化フレームワークを開発した。
目的関数に影響を及ぼす重要なパラメータを特定し,これらのパラメータが吸音に与える影響について考察した。
提案手法は, 硬度が異なる2つのポリウレタン材料に適用した。
論文 参考訳(メタデータ) (2025-05-10T05:33:43Z) - Reward-aware Preference Optimization: A Unified Mathematical Framework for Model Alignment [45.45508377432791]
本稿では、人気のある選好最適化手法を統合する数学的フレームワークであるReward-Aware Preference Optimization (RPO)を紹介する。
RPOは、様々な設計選択の影響を混乱させ、体系的に研究するための構造化されたアプローチを提供する。
そこで我々は,このような設計選択をクリーンかつ直接アブレーションできる新しい実験装置を提案する。
論文 参考訳(メタデータ) (2025-01-31T22:39:04Z) - An Uncertainty-aware Deep Learning Framework-based Robust Design Optimization of Metamaterial Units [14.660705962826718]
メタマテリアルユニットの設計のための,新しい不確実性を考慮したディープラーニングフレームワークに基づくロバスト設計手法を提案する。
提案手法は,高性能なメタマテリアルユニットを高信頼性で設計できることを示す。
論文 参考訳(メタデータ) (2024-07-19T22:21:27Z) - Large Language Model Agent as a Mechanical Designer [7.136205674624813]
本研究では、FEMモジュールと協調して事前訓練された大規模言語モデル(LLM)を利用して、構造設計を自律的に生成、評価、洗練するフレームワークを提案する。
LLMはドメイン固有の微調整なしで動作し、設計候補を提案し、FEMから派生した性能指標を解釈し、構造的な音響修正を適用する。
NSGA-II (Non-Sorting Genetic Algorithm II) と比較して,本手法はより高速に収束し,より少ないFEM評価を実現する。
論文 参考訳(メタデータ) (2024-04-26T16:41:24Z) - Enhanced Bayesian Optimization via Preferential Modeling of Abstract
Properties [49.351577714596544]
本研究では,非測定抽象特性に関する専門家の嗜好を代理モデルに組み込むための,人間とAIの協調型ベイズフレームワークを提案する。
優先判断において、誤った/誤解を招く専門家バイアスを処理できる効率的な戦略を提供する。
論文 参考訳(メタデータ) (2024-02-27T09:23:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - ECoDe: A Sample-Efficient Method for Co-Design of Robotic Agents [11.449817465618658]
自律ロボットエージェントを共同設計するには、エージェントのコントローラと物理的設計を同時に最適化する必要がある。
デザインスペースが大きくなると、これは難しくなります。
共設計のサンプル効率を向上させるための多要素探索手法を提案する。
論文 参考訳(メタデータ) (2023-09-08T02:54:31Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Optimal Bayesian experimental design for subsurface flow problems [77.34726150561087]
本稿では,設計ユーティリティ機能のためのカオス拡張サロゲートモデル(PCE)の開発のための新しいアプローチを提案する。
この手法により,対象関数に対する適切な品質応答面の導出が可能となり,計算予算は複数の単点評価に匹敵する。
論文 参考訳(メタデータ) (2020-08-10T09:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。