論文の概要: "What are my options?": Explaining RL Agents with Diverse Near-Optimal Alternatives (Extended)
- arxiv url: http://arxiv.org/abs/2506.09901v1
- Date: Wed, 11 Jun 2025 16:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.125135
- Title: "What are my options?": Explaining RL Agents with Diverse Near-Optimal Alternatives (Extended)
- Title(参考訳): 「私の選択肢は何か?」--RLエージェントとRLエージェントを交互に表現する(拡張)
- Authors: Noel Brindise, Vijeth Hebbar, Riya Shah, Cedric Langbort,
- Abstract要約: ディバース・ニア・オプティカル・オルタナティブズ(DNA)と呼ばれる,説明可能な強化学習のための新しいアプローチの議論を拡大する。
DNAは、ユークリッド空間における定性的に多様な軌跡を生成するためにポリシーを最適化し、軌道計画剤の合理的な「オプション」のセットを求める。
シミュレーションにおいて、DNAは意味的に異なる「オプション」を構成する定性的に異なるポリシーをうまく返すことを示す。
- 参考スコア(独自算出の注目度): 0.19999259391104385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we provide an extended discussion of a new approach to explainable Reinforcement Learning called Diverse Near-Optimal Alternatives (DNA), first proposed at L4DC 2025. DNA seeks a set of reasonable "options" for trajectory-planning agents, optimizing policies to produce qualitatively diverse trajectories in Euclidean space. In the spirit of explainability, these distinct policies are used to "explain" an agent's options in terms of available trajectory shapes from which a human user may choose. In particular, DNA applies to value function-based policies on Markov decision processes where agents are limited to continuous trajectories. Here, we describe DNA, which uses reward shaping in local, modified Q-learning problems to solve for distinct policies with guaranteed epsilon-optimality. We show that it successfully returns qualitatively different policies that constitute meaningfully different "options" in simulation, including a brief comparison to related approaches in the stochastic optimization field of Quality Diversity. Beyond the explanatory motivation, this work opens new possibilities for exploration and adaptive planning in RL.
- Abstract(参考訳): 本稿では,L4DC 2025で最初に提案されたDiverse Near-Optimal Alternatives (DNA) と呼ばれる,説明可能な強化学習のための新しいアプローチについて,拡張的な議論を行う。
DNAは、ユークリッド空間における定性的に多様な軌跡を生成するためにポリシーを最適化し、軌道計画剤の合理的な「オプション」のセットを求める。
説明可能性の精神において、これらの異なるポリシーは、人間のユーザが選択可能な軌道形状の観点から、エージェントの選択肢を「説明」するために使用される。
特に、DNAは、連続的な軌道に制限されるマルコフ決定過程における関数ベースのポリシーの値に適用される。
ここでは、局所的に修正されたQ-ラーニング問題における報酬形成を利用して、エプシロン最適性の保証された異なるポリシーを解決するDNAについて述べる。
本研究は, 質多様性の確率的最適化分野における関連するアプローチとの比較を含む, シミュレーションにおいて有意に異なる「オプション」を構成する定性的に異なるポリシーの返却に成功したことを示す。
説明的動機の他に、この研究はRLにおける探索と適応計画の新しい可能性を開く。
関連論文リスト
- IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - A Parametric Class of Approximate Gradient Updates for Policy
Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。
我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文 参考訳(メタデータ) (2022-06-17T01:28:38Z) - Continuously Discovering Novel Strategies via Reward-Switching Policy
Optimization [9.456388509414046]
Reward-Switching Policy Optimization (RSPO)
RSPOは、局所的に最適であり、既存のものと十分に異なる新しいポリシーを反復的に見つけることによって、複雑なRL環境における多様な戦略を発見するパラダイムである。
実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。
論文 参考訳(メタデータ) (2022-04-04T12:38:58Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Policy Manifold Search: Exploring the Manifold Hypothesis for
Diversity-based Neuroevolution [4.920145245773581]
本稿では,神経進化による多様性に基づく新しい政策探索法を提案する。
政策探索に原則的アプローチを提供する品質多様性フレームワークを用いている。
また、逆マッピング関数のJacobianを使用して、表現空間での検索を案内します。
論文 参考訳(メタデータ) (2021-04-27T18:52:03Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。