論文の概要: The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm
- arxiv url: http://arxiv.org/abs/2406.07826v1
- Date: Wed, 12 Jun 2024 02:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:36:36.899352
- Title: The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm
- Title(参考訳): 多目的強化学習の最大値定式化:理論からモデルフリーアルゴリズムへ
- Authors: Giseung Park, Woohyeon Byeon, Seongmin Kim, Elad Havakuk, Amir Leshem, Youngchul Sung,
- Abstract要約: 複数の最適化目標を持つ実世界の多くの問題に現れる多目的強化学習について考察する。
我々は、max-minフレームワークの下で、関連する理論と実用的なモデルフリーアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 21.36281978932632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider multi-objective reinforcement learning, which arises in many real-world problems with multiple optimization goals. We approach the problem with a max-min framework focusing on fairness among the multiple goals and develop a relevant theory and a practical model-free algorithm under the max-min framework. The developed theory provides a theoretical advance in multi-objective reinforcement learning, and the proposed algorithm demonstrates a notable performance improvement over existing baseline methods.
- Abstract(参考訳): 本稿では,複数の最適化目標を持つ実世界の多くの問題に現れる多目的強化学習について考察する。
我々は,複数の目標間の公平性に着目したマックスミンフレームワークを用いてこの問題にアプローチし,マックスミンフレームワークの下で関連する理論と実用的なモデルフリーアルゴリズムを開発する。
開発理論は多目的強化学習の理論的進歩をもたらし,提案アルゴリズムは既存のベースライン法よりも顕著な性能向上を示す。
関連論文リスト
- Aligned Multi Objective Optimization [14.320569438197271]
機械学習の実践では、このような衝突が起こらないシナリオが数多く存在する。
近年のマルチタスク学習,強化学習,LLMsトレーニングの成果から,多種多様な関連タスクが,目的物間のパフォーマンスを同時に向上する可能性が示唆された。
我々は、アラインド多目的最適化フレームワークを導入し、この設定のための新しいアルゴリズムを提案し、それらの優れた性能の理論的保証を提供する。
論文 参考訳(メタデータ) (2025-02-19T20:50:03Z) - Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond [35.78910104369677]
ディープラーニングにおける多目的最適化(MOO)は、複数の競合する目的を同時に最適化することを目的としている。
勾配に基づくMOO法の進歩は、様々な種類の解の発見を可能にした。
これらの開発は、強化学習、コンピュータビジョン、レコメンデーションシステム、大規模言語モデルといった分野に広く応用されている。
論文 参考訳(メタデータ) (2025-01-19T04:56:55Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Towards Principled Task Grouping for Multi-Task Learning [14.3385939018772]
マルチタスク学習(MTL)におけるタスクグループ化への新しいアプローチを提案する。
我々の手法は、転送ゲインを構築するための制限的な仮定に依存しない、より理論的に基礎付けられた方法を提供する。
論文 参考訳(メタデータ) (2024-02-23T13:51:20Z) - Hierarchical Optimization-Derived Learning [58.69200830655009]
我々は,最適化モデル構築の本質的な動作とそれに対応する学習過程を同時に研究するために,階層型ODL(Hyerarchical ODL)という新しいフレームワークを構築した。
これは、最適化と学習という2つの結合されたODLコンポーネントに対する最初の理論的保証である。
論文 参考訳(メタデータ) (2023-02-11T03:35:13Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - MODRL/D-EL: Multiobjective Deep Reinforcement Learning with Evolutionary
Learning for Multiobjective Optimization [10.614594804236893]
本稿では、時間窓付き多目的車両ルーティング問題と呼ばれる典型的な複雑な問題に対して、進化学習アルゴリズムを用いた多目的深部強化学習を提案する。
MO-VRPTWインスタンスの実験結果は、提案アルゴリズムが他の学習ベースおよび反復型アプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-16T15:22:20Z) - Investigating Bi-Level Optimization for Learning and Vision from a
Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。
本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。
次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文 参考訳(メタデータ) (2021-01-27T16:20:23Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Improving Few-Shot Learning through Multi-task Representation Learning
Theory [14.8429503385929]
本稿では,MTR(Multi-task representation)学習の枠組みについて考察する。
MTR理論の最近の進歩は、このフレームワーク内で解析すると、一般的なメタ学習アルゴリズムに新しい洞察を与えることができることを示す。
これは、直近のMSR理論の学習境界を、数発の分類のタスクのために実践する最初の貢献である。
論文 参考訳(メタデータ) (2020-10-05T13:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。