論文の概要: A proof of convergence of inverse reinforcement learning for
multi-objective optimization
- arxiv url: http://arxiv.org/abs/2305.06137v3
- Date: Thu, 18 May 2023 00:25:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 10:55:32.040277
- Title: A proof of convergence of inverse reinforcement learning for
multi-objective optimization
- Title(参考訳): 多目的最適化のための逆強化学習の収束の証明
- Authors: Akira Kitaoka, Riki Eto
- Abstract要約: 射影次数法による多目的最適化のためのワッサーシュタイン逆強化学習の収束性を示す。
また,勾配降下による逆強化学習の収束と,射影下降法を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show the convergence of Wasserstein inverse reinforcement learning for
multi-objective optimizations with the projective subgradient method by
formulating an inverse problem of the multi-objective optimization problem. In
addition, we prove convergence of inverse reinforcement learning (maximum
entropy inverse reinforcement learning, guided cost learning) with gradient
descent and the projective subgradient method.
- Abstract(参考訳): 本稿では,多目的最適化問題の逆問題を定式化することにより,多目的最適化に対するワッサーシュタイン逆強化学習の収束性を示す。
さらに,勾配降下を伴う逆強化学習(最大エントロピー逆強化学習,誘導コスト学習)と射影劣勾配法との収束を証明した。
関連論文リスト
- A Full Adagrad algorithm with O(Nd) operations [4.389938747401259]
この研究は大規模アプリケーションのための効率的で実用的なアルゴリズムを提供する。
この革新的な戦略は、一般的にフルマトリックスメソッドに関連する複雑さとリソース要求を著しく削減する。
論文 参考訳(メタデータ) (2024-05-03T08:02:08Z) - Divide and Conquer: Provably Unveiling the Pareto Front with
Multi-Objective Reinforcement Learning [2.5115843173830252]
本稿では,Paretoフロントを単一目的問題列に分解するアルゴリズムIPROを紹介する。
実証的な評価は、IPROが追加のドメイン知識を必要とするメソッドにマッチするか、より優れていることを示している。
問題固有の単目的解法を利用することで、本手法は多目的強化学習を超える応用を約束する。
論文 参考訳(メタデータ) (2024-02-11T12:35:13Z) - Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。
この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文 参考訳(メタデータ) (2024-02-03T13:35:39Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - A proof of imitation of Wasserstein inverse reinforcement learning for
multi-objective optimization [0.0]
ワッサースタイン逆強化学習により、学習者の報酬値が、多目的最適化のための有限反復で専門家の報酬値を模倣できることを示す。
また、ワッサーシュタイン逆強化学習により、学習者の最適解が、語彙順で多目的最適化のためのエキスパートの最適解を模倣できることを示す。
論文 参考訳(メタデータ) (2023-05-17T09:48:02Z) - Linearization Algorithms for Fully Composite Optimization [61.20539085730636]
本稿では,完全合成最適化問題を凸コンパクト集合で解くための一階アルゴリズムについて検討する。
微分可能および非微分可能を別々に扱い、滑らかな部分のみを線形化することで目的の構造を利用する。
論文 参考訳(メタデータ) (2023-02-24T18:41:48Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - MODRL/D-AM: Multiobjective Deep Reinforcement Learning Algorithm Using
Decomposition and Attention Model for Multiobjective Optimization [15.235261981563523]
本稿では,多目的最適化問題を解くための多目的深部強化学習法を提案する。
本手法では,各サブプロブレムをアテンションモデルにより解き,入力ノードの構造的特徴とノード的特徴を活用できる。
論文 参考訳(メタデータ) (2020-02-13T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。