論文の概要: A proof of imitation of Wasserstein inverse reinforcement learning for
multi-objective optimization
- arxiv url: http://arxiv.org/abs/2305.10089v2
- Date: Thu, 18 May 2023 00:37:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:24:08.517740
- Title: A proof of imitation of Wasserstein inverse reinforcement learning for
multi-objective optimization
- Title(参考訳): 多目的最適化のためのwasserstein逆強化学習の模倣の証明
- Authors: Akira Kitaoka, Riki Eto
- Abstract要約: ワッサースタイン逆強化学習により、学習者の報酬値が、多目的最適化のための有限反復で専門家の報酬値を模倣できることを示す。
また、ワッサーシュタイン逆強化学習により、学習者の最適解が、語彙順で多目的最適化のためのエキスパートの最適解を模倣できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We prove Wasserstein inverse reinforcement learning enables the learner's
reward values to imitate the expert's reward values in a finite iteration for
multi-objective optimizations. Moreover, we prove Wasserstein inverse
reinforcement learning enables the learner's optimal solutions to imitate the
expert's optimal solutions for multi-objective optimizations with lexicographic
order.
- Abstract(参考訳): 本研究では,多目的最適化のための有限イテレーションにおいて,学習者の報酬値が専門家の報酬値を模倣できることを示す。
さらに,wasserstein逆強化学習により,学習者の最適解が,辞書順による多目的最適化のための専門家の最適解を模倣できることを示した。
関連論文リスト
- Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning [2.5115843173830252]
本稿では,Paretoフロントを単一目的問題列に分解するアルゴリズムIPROを紹介する。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
論文 参考訳(メタデータ) (2024-02-11T12:35:13Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Expert-guided Bayesian Optimisation for Human-in-the-loop Experimental
Design of Known Systems [0.0]
我々は,高スループット(バッチ)ベイズ最適化と人類学的決定理論を併用して,ドメインの専門家が最適実験の選択に影響を及ぼすことを可能にする。
我々の方法論は、人間が連続的な選択よりも個別に選択する方が優れているという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。
論文 参考訳(メタデータ) (2023-12-05T16:09:31Z) - A proof of convergence of inverse reinforcement learning for
multi-objective optimization [0.0]
射影次数法による多目的最適化のためのワッサーシュタイン逆強化学習の収束性を示す。
また,勾配降下による逆強化学習の収束と,射影下降法を検証した。
論文 参考訳(メタデータ) (2023-05-10T13:41:24Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - An Empirical Evaluation of Zeroth-Order Optimization Methods on
AI-driven Molecule Optimization [78.36413169647408]
分子目的を最適化するための様々なZO最適化手法の有効性について検討する。
ZO符号に基づく勾配降下(ZO-signGD)の利点を示す。
本稿では,Guurcamol スイートから広く使用されているベンチマークタスクに対して,ZO 最適化手法の有効性を示す。
論文 参考訳(メタデータ) (2022-10-27T01:58:10Z) - A Pareto-optimal compositional energy-based model for sampling and
optimization of protein sequences [55.25331349436895]
深層生成モデルは、生命科学における逆問題に対する一般的な機械学習ベースのアプローチとして登場した。
これらの問題は、データ分布の学習に加えて、興味のある複数の特性を満たす新しい設計をサンプリングする必要があることが多い。
論文 参考訳(メタデータ) (2022-10-19T19:04:45Z) - Optimizer Amalgamation [124.33523126363728]
私たちは、Amalgamationという新しい問題の研究を動機付けています。"Teacher"アマルガメーションのプールを、より強力な問題固有のパフォーマンスを持つ単一の"学生"にどのように組み合わせるべきなのでしょうか?
まず、勾配降下による解析のプールをアマルガメートする3つの異なるメカニズムを定義する。
また, プロセスの分散を低減するため, 目標を摂動させることでプロセスの安定化を図る。
論文 参考訳(メタデータ) (2022-03-12T16:07:57Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z) - MODRL/D-AM: Multiobjective Deep Reinforcement Learning Algorithm Using
Decomposition and Attention Model for Multiobjective Optimization [15.235261981563523]
本稿では,多目的最適化問題を解くための多目的深部強化学習法を提案する。
本手法では,各サブプロブレムをアテンションモデルにより解き,入力ノードの構造的特徴とノード的特徴を活用できる。
論文 参考訳(メタデータ) (2020-02-13T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。