論文の概要: Auction-Based Online Policy Adaptation for Evolving Objectives
- arxiv url: http://arxiv.org/abs/2604.02151v1
- Date: Thu, 02 Apr 2026 15:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.879997
- Title: Auction-Based Online Policy Adaptation for Evolving Objectives
- Title(参考訳): オークションに基づく進化的目標のためのオンライン政策適応
- Authors: Guruprerana Shabadi, Kaushik Mallik,
- Abstract要約: 目的が同じ家族から生まれる多目的強化学習問題について考察する。
本稿では,各目的を自己中心的なローカルポリシーで支援するモジュラーフレームワークを提案する。
この問題を汎用ゲームにすることで、自己中心的なローカルポリシーをいかに計算できるかを示す。
- 参考スコア(独自算出の注目度): 0.7734726150561088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider multi-objective reinforcement learning problems where objectives come from an identical family -- such as the class of reachability objectives -- and may appear or disappear at runtime. Our goal is to design adaptive policies that can efficiently adjust their behaviors as the set of active objectives changes. To solve this problem, we propose a modular framework where each objective is supported by a selfish local policy, and coordination is achieved through a novel auction-based mechanism: policies bid for the right to execute their actions, with bids reflecting the urgency of the current state. The highest bidder selects the action, enabling a dynamic and interpretable trade-off among objectives. Going back to the original adaptation problem, when objectives change, the system adapts by simply adding or removing the corresponding policies. Moreover, as objectives arise from the same family, identical copies of a parameterized policy can be deployed, facilitating immediate adaptation at runtime. We show how the selfish local policies can be computed by turning the problem into a general-sum game, where the policies compete against each other to fulfill their own objectives. To succeed, each policy must not only optimize its own objective, but also reason about the presence of other goals and learn to produce calibrated bids that reflect relative priority. In our implementation, the policies are trained concurrently using proximal policy optimization (PPO). We evaluate on Atari Assault and a gridworld-based path-planning task with dynamic targets. Our method achieves substantially better performance than monolithic policies trained with PPO.
- Abstract(参考訳): 目的が同じ家族(到達可能性のクラスなど)から来る多目的強化学習問題について考察し,実行時に現れるか,あるいは消滅する可能性がある。
私たちのゴールは、アクティブな目標の変化の集合として効率的に行動を調整するための適応的なポリシーを設計することです。
この問題を解決するために,我々は,各目的を自己中心的なローカルポリシーで支援し,新たなオークションベースのメカニズムによって協調を達成し,その行動を実行する権利を入札し,現状の緊急性を反映した入札を行うモジュール型フレームワークを提案する。
最高入札者は行動を選択し、目的物間の動的かつ解釈可能なトレードオフを可能にする。
本来の適応問題に戻ると、目的が変わると、システムは対応するポリシーを追加したり削除したりするだけで適応します。
さらに、同じファミリーから目的が生まれると、パラメータ化されたポリシーの同一のコピーがデプロイされ、実行時の即時適応が容易になる。
我々は,自我的な地域政策を,問題を汎用ゲームに変えて,それぞれの目的を達成するために互いに競い合う方法を示す。
成功するためには、それぞれの政策は、自身の目的を最適化するだけでなく、他の目標の存在を理由付け、相対的な優先順位を反映した調整された入札を生み出すことを学ぶ必要がある。
本実装では、ポリシーをPPO(Pximal Policy Optimization)を用いて同時に訓練する。
我々は, Atari Assault とグリッドワールドに基づく動的目標を考慮した経路計画タスクについて検討した。
提案手法は,PPOで訓練したモノリシックポリシーよりもはるかに優れた性能を実現する。
関連論文リスト
- Auction-Based Scheduling [2.3326951882644553]
オークションベースのスケジューリングは、多目的意思決定問題のためのモジュラーフレームワークである。
それぞれの目的は別々のポリシーを使用して達成され、ポリシーは独立して作成、変更、置換が可能である。
我々は,2つのポリシー,当初割り当てられた予算,入札戦略を合成する分散アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-18T08:38:42Z) - Learning Control Policies for Variable Objectives from Offline Data [2.7174376960271154]
可変客観ポリシー(VOP)と呼ばれるモデルに基づくポリシー探索手法の概念拡張を導入する。
ポリシーの入力として渡された目的を変更することで、ユーザはその動作を調整する自由を得たり、実行時に最適化目標を再バランスさせたりすることができる。
論文 参考訳(メタデータ) (2023-08-11T13:33:59Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - Imitating Graph-Based Planning with Goal-Conditioned Policies [72.61631088613048]
本稿では,目標目標条件ポリシにサブゴール条件ポリシを蒸留する自己シミュレーション方式を提案する。
提案手法は,既存の目標条件付きRL手法のサンプル効率を大幅に向上させることができることを実証的に示す。
論文 参考訳(メタデータ) (2023-03-20T14:51:10Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。