論文の概要: Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.13493v1
- Date: Sat, 24 Aug 2024 06:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 19:19:21.624183
- Title: Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning
- Title(参考訳): 多目的強化学習における閾値レキソグラフィ
- Authors: Alperen Tercan, Vinayak S. Prabhu,
- Abstract要約: 語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。
既存の強化学習では、語彙的タスクに直接対処する作業が不足している。
本稿では,これらの理論的・実践的な問題に対処する可能性を持つLexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lexicographic multi-objective problems, which impose a lexicographic importance order over the objectives, arise in many real-life scenarios. Existing Reinforcement Learning work directly addressing lexicographic tasks has been scarce. The few proposed approaches were all noted to be heuristics without theoretical guarantees as the Bellman equation is not applicable to them. Additionally, the practical applicability of these prior approaches also suffers from various issues such as not being able to reach the goal state. While some of these issues have been known before, in this work we investigate further shortcomings, and propose fixes for improving practical performance in many cases. We also present a policy optimization approach using our Lexicographic Projection Optimization (LPO) algorithm that has the potential to address these theoretical and practical concerns. Finally, we demonstrate our proposed algorithms on benchmark problems.
- Abstract(参考訳): 語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。
既存の強化学習では、語彙的タスクに直接対処する作業が不足している。
ベルマン方程式はそれらに適用できないため、いくつかの提案されたアプローチは、理論的な保証なしにヒューリスティックであるとみなされた。
さらに、これらの従来のアプローチの実践的適用性も、目標状態に到達できないなど、さまざまな問題に悩まされている。
これらの問題のいくつかは以前にも知られていたが、本研究ではさらなる欠点を調査し、多くの場合、実用的なパフォーマンスを改善するための修正を提案する。
また,Lexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。
最後に,ベンチマーク問題に対する提案アルゴリズムの実証を行った。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Probing as Quantifying the Inductive Bias of Pre-trained Representations [99.93552997506438]
本稿では,特定のタスクに対する表現の帰納的バイアスを評価することを目的とした,探索のための新しいフレームワークを提案する。
トークン、アーク、文レベルの一連のタスクに我々のフレームワークを適用します。
論文 参考訳(メタデータ) (2021-10-15T22:01:16Z) - A Field Guide to Federated Optimization [161.3779046812383]
フェデレートされた学習と分析は、分散化されたデータからモデル(あるいは統計)を協調的に学習するための分散アプローチである。
本稿では、フェデレート最適化アルゴリズムの定式化、設計、評価、分析に関する勧告とガイドラインを提供する。
論文 参考訳(メタデータ) (2021-07-14T18:09:08Z) - What if we Increase the Number of Objectives? Theoretical and Empirical
Implications for Many-objective Optimization [0.0]
本稿では,多くの目的に対処するための一般的な手順とアルゴリズムの実践的挙動と問題特性に対する目的数の影響について検討する。
我々は,アルゴリズム設計を支援するための実践的な勧告を導出するために,理論的および実証的な知見を利用する。
論文 参考訳(メタデータ) (2021-06-06T23:25:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。