論文の概要: Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.13493v2
- Date: Wed, 4 Sep 2024 01:00:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:09:05.377917
- Title: Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning
- Title(参考訳): 多目的強化学習における閾値レキソグラフィ
- Authors: Alperen Tercan, Vinayak S. Prabhu,
- Abstract要約: 語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。
既存の強化学習では、語彙的タスクに直接対処する作業が不足している。
本稿では,これらの理論的・実践的な問題に対処する可能性を持つLexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexicographic multi-objective problems, which impose a lexicographic importance order over the objectives, arise in many real-life scenarios. Existing Reinforcement Learning work directly addressing lexicographic tasks has been scarce. The few proposed approaches were all noted to be heuristics without theoretical guarantees as the Bellman equation is not applicable to them. Additionally, the practical applicability of these prior approaches also suffers from various issues such as not being able to reach the goal state. While some of these issues have been known before, in this work we investigate further shortcomings, and propose fixes for improving practical performance in many cases. We also present a policy optimization approach using our Lexicographic Projection Optimization (LPO) algorithm that has the potential to address these theoretical and practical concerns. Finally, we demonstrate our proposed algorithms on benchmark problems.
- Abstract(参考訳): 語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。
既存の強化学習では、語彙的タスクに直接対処する作業が不足している。
ベルマン方程式はそれらに適用できないため、いくつかの提案されたアプローチは、理論的な保証なしにヒューリスティックであるとみなされた。
さらに、これらの従来のアプローチの実践的適用性も、目標状態に到達できないなど、さまざまな問題に悩まされている。
これらの問題のいくつかは以前にも知られていたが、本研究ではさらなる欠点を調査し、多くの場合、実用的なパフォーマンスを改善するための修正を提案する。
また,Lexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。
最後に,ベンチマーク問題に対する提案アルゴリズムの実証を行った。
関連論文リスト
- Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Adversarial Robustness with Semi-Infinite Constrained Learning [177.42714838799924]
入力に対する深い学習は、安全クリティカルなドメインでの使用に関して深刻な疑問を提起している。
本稿では,この問題を緩和するために,Langevin Monte Carlo のハイブリッドトレーニング手法を提案する。
当社のアプローチは、最先端のパフォーマンスと堅牢性の間のトレードオフを軽減することができることを示す。
論文 参考訳(メタデータ) (2021-10-29T13:30:42Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - What if we Increase the Number of Objectives? Theoretical and Empirical
Implications for Many-objective Optimization [0.0]
本稿では,多くの目的に対処するための一般的な手順とアルゴリズムの実践的挙動と問題特性に対する目的数の影響について検討する。
我々は,アルゴリズム設計を支援するための実践的な勧告を導出するために,理論的および実証的な知見を利用する。
論文 参考訳(メタデータ) (2021-06-06T23:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。