論文の概要: Post Hoc Extraction of Pareto Fronts for Continuous Control
- arxiv url: http://arxiv.org/abs/2603.02628v1
- Date: Tue, 03 Mar 2026 05:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.656454
- Title: Post Hoc Extraction of Pareto Fronts for Continuous Control
- Title(参考訳): 連続制御のためのパレートフロントのポストホック抽出
- Authors: Raghav Thakar, Gaurav Dixit, Kagan Tumer,
- Abstract要約: 現実世界のエージェントはしばしば、連続制御における速度、安定性、エネルギー効率などの複数の目的のバランスをとる必要がある。
条件や好みを変えるために、エージェントは、複数の最適なトレードオフを表すポリシーのパレートフロンティアを理想的に学ぶ必要がある。
近年の多目的強化学習(MORL)の進歩により,パレートフロントを直接学習することが可能になるが,訓練開始時から完全に多目的的考察が必要である。
- 参考スコア(独自算出の注目度): 1.0705399532413618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agents in the real world must often balance multiple objectives, such as speed, stability, and energy efficiency in continuous control. To account for changing conditions and preferences, an agent must ideally learn a Pareto frontier of policies representing multiple optimal trade-offs. Recent advances in multi-policy multi-objective reinforcement learning (MORL) enable learning a Pareto front directly, but require full multi-objective consideration from the start of training. In practice, multi-objective preferences often arise after a policy has already been trained on a single specialised objective. Existing MORL methods cannot leverage these pre-trained `specialists' to learn Pareto fronts and avoid incurring the sample costs of retraining. We introduce Mixed Advantage Pareto Extraction (MAPEX), an offline MORL method that constructs a frontier of policies by reusing pre-trained specialist policies, critics, and replay buffers. MAPEX combines evaluations from specialist critics into a mixed advantage signal, and weights a behaviour cloning loss with it to train new policies that balance multiple objectives. MAPEX's post hoc Pareto front extraction preserves the simplicity of single-objective off-policy RL, and avoids retrofitting these algorithms into complex MORL frameworks. We formally describe the MAPEX procedure and evaluate MAPEX on five multi-objective MuJoCo environments. Given the same starting policies, MAPEX produces comparable fronts at $0.001\%$ the sample cost of established baselines.
- Abstract(参考訳): 現実世界のエージェントはしばしば、連続制御における速度、安定性、エネルギー効率などの複数の目的のバランスをとる必要がある。
条件や好みを変えるために、エージェントは、複数の最適なトレードオフを表すポリシーのパレートフロンティアを理想的に学ぶ必要がある。
近年の多目的強化学習(MORL)の進歩により,パレートフロントを直接学習することが可能になるが,訓練開始時から完全に多目的的考察が必要である。
実際には、政策がすでに1つの専門的目標に基づいて訓練された後に、多目的的嗜好がしばしば生じる。
既存のMORL法では、これらの事前訓練された「スペシャリスト」を活用して、Paretoのフロントを学習し、再訓練のサンプルコストを回避することはできない。
我々は、事前訓練された専門家ポリシー、評論家、リプレイバッファを再利用してポリシーのフロンティアを構築するオフラインMORL手法であるMixed Advantage Pareto extract(MAPEX)を紹介する。
MAPEXは、スペシャリストによる評価を混合的な有利な信号に組み合わせ、複数の目的のバランスをとる新しいポリシーをトレーニングするために、行動のクローン損失を重み付けする。
MAPEXのポストホックParetoフロント抽出は、単一目的のオフポリティクスRLの単純さを保ち、これらのアルゴリズムを複雑なMORLフレームワークに適合させるのを避ける。
我々はMAPEXの手順を正式に記述し、5つの多目的 MuJoCo 環境上でMAPEXを評価する。
同じ開始ポリシーを与えられたMAPEXは、確立されたベースラインのサンプルコストの0.001\%で同等のフロントを生産する。
関連論文リスト
- Preference Conditioned Multi-Objective Reinforcement Learning: Decomposed, Diversity-Driven Policy Optimization [2.595968385299781]
多目的強化学習は、複数の、しばしば矛盾する目標のバランスをとる政策を学ぼうとする。
PPOベースのフレームワークである$D3PO$を導入し、これらの問題に直接対処するために、多目的ポリシー最適化を再編成する。
D3PO$は、分解された最適化パイプラインを通じてオブジェクトごとの学習信号を保存し、安定化後にのみ好みを統合する。
論文 参考訳(メタデータ) (2026-02-08T01:45:01Z) - SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - Federated Multi-Objective Learning with Controlled Pareto Frontiers [10.818539304970935]
フェデレートラーニング(FL)は、プライバシ保護モデルトレーニングにおいて広く採用されているパラダイムである。
FMOL(Federated Multi-Objective Learning)のような既存の手法は、多目的最適化(MOO)をFLにインポートしようとする試みである。
優先コーン制約によりクライアントの最適性を強制する最初の統合MOOフレームワークであるComically-Regularized FMOL(CR-FMOL)を紹介する。
論文 参考訳(メタデータ) (2025-08-07T14:15:12Z) - Multi-Policy Pareto Front Tracking Based Online and Offline Multi-Objective Reinforcement Learning [6.815740081890867]
MORL (Multi-policy reinforcement learning) は, 実世界の多条件意思決定問題に対処する上で重要な役割を担っている。
従来のMP手法は、オンライン強化学習(RL)にのみ依存し、大きな政策人口を持つ進化的枠組みを採用する。
本稿では,オンラインおよびオフラインのMORLアルゴリズムを適用可能なMPFTフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:09:04Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation [6.876580618014666]
本稿では,識別器の正則化のための報酬距離推定を用いて,逆強化学習(IRL)を適用する。
本稿では,多目的制御タスクにおいて,ParIRLが他のIRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2024-08-22T03:51:39Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Beyond One-Preference-Fits-All Alignment: Multi-Objective Direct Preference Optimization [76.09576643028362]
複数のアライメント目的に対してMODPO(Multi-Objective Direct Preference Optimization)を提案する。
MODPOは、言語モデリングを直接報酬モデルに折り畳み、暗黙の集団報酬モデルとして言語モデルを訓練する。
理論的には MORLHF と同じ最適解が得られるが、実質的にはより安定で効率的である。
論文 参考訳(メタデータ) (2023-10-05T17:35:26Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。