論文の概要: Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.12771v1
- Date: Tue, 12 May 2026 21:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.699441
- Title: Adaptive Smooth Tchebycheff Attention for Multi-Objective Policy Optimization
- Title(参考訳): 多目的政策最適化のための適応的スムース・チェビシェフ注意
- Authors: Alejandro Murillo-Gonzalez, Mahmoud Ali, Lantao Liu,
- Abstract要約: ドメインにおける多曲率強化学習は、矛盾する目的間の複雑な非脆弱な干渉トレードオフのバランスを必要とする。
本稿では,生態系をモニタリングするプロキシであるロボットビジュアルを用いた,新しいリアルタイムなリアルタイム最適化を提案する。
- 参考スコア(独自算出の注目度): 55.338784037660474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective reinforcement learning in robotic domains requires balancing complex, non-convex trade-offs between conflicting objectives. While linear scalarization methods provide stability, they are theoretically incapable of recovering solutions within non-convex regions of the Pareto front. Conversely, static non-linear scalarizations (e.g., Tchebycheff) can theoretically access these regions but often suffer from severe gradient variance and optimization instability in deep RL. In this work, we propose an Adaptive Smooth Tchebycheff framework that resolves this tension by dynamically modulating the curvature of the optimization landscape. We introduce a novel conflict-driven controller that regulates the optimization smoothness based on real-time gradient interference. This allows the agent to anneal toward precise, non-convex scalarization when objectives align, while elastically reverting to stable, smooth approximations when destructive gradient conflicts emerge. We validate our approach on a challenging robotic stealth visual search task -- a proxy for monitoring of protected/fragile ecosystems -- where an agent must balance search, exposure/interference minimization and exploration speed. Extensive ablations confirm that our conflict-aware adaptation enables the robust discovery of Pareto-optimal policies in non-convex regions inaccessible to linear baselines and unstable for static non-linear methods. Website: https://alejandromllo.github.io/research/pasta/
- Abstract(参考訳): ロボット領域における多目的強化学習は、競合する目的間の複雑な非凸トレードオフのバランスを必要とする。
線形スカラー化法は安定性を提供するが、理論上パレートフロントの非凸領域内の解を回収することは不可能である。
逆に、静的な非線形スカラー化(例えば、Tchebycheff)は理論上これらの領域にアクセスできるが、しばしば深いRLの勾配のばらつきと最適化の不安定性に悩まされる。
本研究では,最適化ランドスケープの曲率を動的に調節することで,このテンションを解消する適応型スムース・チェビシェフフレームワークを提案する。
実時間勾配干渉に基づいて最適化のスムーズさを制御できる新しいコンフリクト駆動制御器を提案する。
これにより、目標が整合すると、エージェントは正確に非凸なスカラー化を回避でき、破壊的な勾配の衝突が発生すると、弾性的に安定で滑らかな近似に戻すことができる。
我々は、エージェントが探索、露出/干渉の最小化、探索速度のバランスをとる必要がある、ロボットステルス視覚検索タスク -- 保護された/脆弱なエコシステムを監視するプロキシ -- に対する我々のアプローチを検証する。
その結果, 線形ベースラインに到達できず, 静的非線形手法では不安定な非凸領域におけるパレート最適ポリシーのロバストな発見が可能であることが確認された。
ウェブサイト:https://alejandromllo.github.io/research/pasta/
関連論文リスト
- Iterative Convex Optimization with Control Barrier Functions for Obstacle Avoidance among Polytopes [3.8436274588467696]
多目的ロボットによる障害物回避は、最適化に基づく制御と軌道計画において難しい問題である。
既存の手法は、幾何学力学を歪ませる楕円体のような双対距離近似に頼っている。
本稿では,安全クリティカルナビゲーションプログラムのための新しい反復凸性有限水平最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-06T05:10:44Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Online Stackelberg Optimization via Nonlinear Control [11.220642401065495]
適応エージェントとの繰り返しの相互作用問題では、エージェント応答の空間を予測し、最適化する必要があることが多い。
この形態の多くの問題は、テキスト局所制御性を満たすオンライン(非線形)制御のインスタンスとして、境界状態空間上で凸損失を伴ってキャスト可能であることを示す。
このような場合において、トラクタブルな後悔の最小化のための統一的なアルゴリズムフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-27T00:42:33Z) - An Adaptive Fuzzy Reinforcement Learning Cooperative Approach for the
Autonomous Control of Flock Systems [4.961066282705832]
この研究は、群集システムの自律制御に適応的な分散ロバスト性技術を導入している。
比較的柔軟な構造は、様々な目的を同時に狙うオンラインファジィ強化学習スキームに基づいている。
動的障害に直面した場合のレジリエンスに加えて、アルゴリズムはフィードバック信号としてエージェントの位置以上のものを必要としない。
論文 参考訳(メタデータ) (2023-03-17T13:07:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Learning over All Stabilizing Nonlinear Controllers for a
Partially-Observed Linear System [4.3012765978447565]
線形力学系に対する非線形出力フィードバックコントローラのパラメータ化を提案する。
提案手法は, 制約を満たすことなく, 部分的に観測可能な線形力学系の閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2021-12-08T10:43:47Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。