論文の概要: Reinforcement Learning for Flexibility Design Problems
- arxiv url: http://arxiv.org/abs/2101.00355v2
- Date: Mon, 18 Jan 2021 14:35:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:21:53.274324
- Title: Reinforcement Learning for Flexibility Design Problems
- Title(参考訳): フレキシビリティ設計問題に対する強化学習
- Authors: Yehua Wei, Lei Zhang, Ruiyi Zhang, Shijing Si, Hao Zhang, Lawrence
Carin
- Abstract要約: フレキシビリティ設計問題に対する強化学習フレームワークを開発した。
実験の結果、RL法は古典的手法よりも優れた解を常に見出すことがわかった。
- 参考スコア(独自算出の注目度): 77.37213643948108
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Flexibility design problems are a class of problems that appear in strategic
decision-making across industries, where the objective is to design a ($e.g.$,
manufacturing) network that affords flexibility and adaptivity. The underlying
combinatorial nature and stochastic objectives make flexibility design problems
challenging for standard optimization methods. In this paper, we develop a
reinforcement learning (RL) framework for flexibility design problems.
Specifically, we carefully design mechanisms with noisy exploration and
variance reduction to ensure empirical success and show the unique advantage of
RL in terms of fast-adaptation. Empirical results show that the RL-based method
consistently finds better solutions compared to classical heuristics.
- Abstract(参考訳): フレキシビリティ設計問題(英: Flexibility design problem)とは、産業間の戦略的意思決定において、柔軟性と適応性を持つネットワーク(例えば製造コスト)を設計することを目的とする問題である。
基礎となる組合せの性質と確率的目的は、標準最適化法において柔軟性設計の問題を引き起こす。
本稿では、柔軟性設計問題に対する強化学習(RL)フレームワークを開発する。
具体的には、実験的な成功を確実にするため、ノイズ探索と分散低減によるメカニズムを慎重に設計し、高速適応の観点からRLの独特な利点を示す。
実験結果から、RLに基づく手法は古典的ヒューリスティックよりも優れた解を常に見出すことが示された。
関連論文リスト
- Entropy-Regularized Token-Level Policy Optimization for Large Language
Models [76.02428537504323]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
その結果,ETPO は CodeLlama-7B モデルで有効な性能向上を実現し,RLHF から受け継いだ変種 PPO ベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Generative Inverse Design of Metamaterials with Functional Responses by
Interpretable Learning [4.21830347550555]
本稿では, オンデマンド機能的振る舞いを持つメタマテリアル設計の高速な生成を実現するために, ランダムフォレストに基づく解釈可能生成逆設計(RIGID)手法を提案する。
トレーニングされたフォワードモデルから得られた目標満足度の可能性に基づいて、マルコフ連鎖モンテカルロ法を用いて設計ソリューションをサンプリングすることができる。
論文 参考訳(メタデータ) (2023-12-08T04:24:03Z) - Accelerate Presolve in Large-Scale Linear Programming via Reinforcement
Learning [92.31528918811007]
本稿では,P1)-(P3) を同時に扱うための簡易かつ効率的な強化学習フレームワーク,すなわち,事前解決のための強化学習(RL4Presolve)を提案する。
2つの解法と8つのベンチマーク(実世界と合成)の実験により、RL4Presolveは大規模LPの解法効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-10-18T09:51:59Z) - Sample-Efficient Co-Design of Robotic Agents Using Multi-fidelity
Training on Universal Policy Network [12.283890343327233]
本稿では,Hyperbandに基づく多要素設計探索手法を提案する。
我々は、その後のコントローラ学習問題を温めるためのユニバーサルラーナーポリシーを通じて、設計空間全体で学習したコントローラを結びつける。
幅広いエージェント設計問題に対して行った実験は,本手法がベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-09-08T02:54:31Z) - Reinforcement Learning with Stepwise Fairness Constraints [50.538878453547966]
本稿では,段階的公正性制約を伴う強化学習について紹介する。
我々は、ポリシーの最適性と公正性違反に関して、強力な理論的保証を持つ学習アルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-11-08T04:06:23Z) - Graph Learning based Generative Design for Resilience of Interdependent
Network Systems [3.6930948691311007]
本研究では,グラフ学習アルゴリズムを用いた生成設計手法を提案する。
ジェネレータは、既存のシステムから優れた特性をインテリジェントにマイニングし、事前に定義された性能基準を満たす新しい設計を出力することができる。
IEEEデータセットの電力システムに基づくケーススタディでは,提案手法の適用性を示した。
論文 参考訳(メタデータ) (2022-07-03T01:35:08Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。