論文の概要: The Quality-Diversity Transformer: Generating Behavior-Conditioned
Trajectories with Decision Transformers
- arxiv url: http://arxiv.org/abs/2303.16207v1
- Date: Mon, 27 Mar 2023 19:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 17:21:43.363877
- Title: The Quality-Diversity Transformer: Generating Behavior-Conditioned
Trajectories with Decision Transformers
- Title(参考訳): 品質多様性トランスフォーマ:決定トランスを用いた行動条件形軌道の生成
- Authors: Valentin Mac\'e, Rapha\"el Boige, Felix Chalumeau, Thomas Pierrot,
Guillaume Richard, Nicolas Perrin-Gilbert
- Abstract要約: 品質多様性アルゴリズムは、多様かつ効率的なポリシーのレパートリーを生成するのに有効であることが証明されている。
不確実な環境では、ポリシーは堅牢性と再現性に欠ける可能性がある。
本稿では,2つのメカニズムに基づく行動条件付き軌道生成を実現するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.26690973768682785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of neuroevolution, Quality-Diversity algorithms have proven
effective in generating repertoires of diverse and efficient policies by
relying on the definition of a behavior space. A natural goal induced by the
creation of such a repertoire is trying to achieve behaviors on demand, which
can be done by running the corresponding policy from the repertoire. However,
in uncertain environments, two problems arise. First, policies can lack
robustness and repeatability, meaning that multiple episodes under slightly
different conditions often result in very different behaviors. Second, due to
the discrete nature of the repertoire, solutions vary discontinuously. Here we
present a new approach to achieve behavior-conditioned trajectory generation
based on two mechanisms: First, MAP-Elites Low-Spread (ME-LS), which constrains
the selection of solutions to those that are the most consistent in the
behavior space. Second, the Quality-Diversity Transformer (QDT), a
Transformer-based model conditioned on continuous behavior descriptors, which
trains on a dataset generated by policies from a ME-LS repertoire and learns to
autoregressively generate sequences of actions that achieve target behaviors.
Results show that ME-LS produces consistent and robust policies, and that its
combination with the QDT yields a single policy capable of achieving diverse
behaviors on demand with high accuracy.
- Abstract(参考訳): 神経進化の文脈において、品質多様性アルゴリズムは行動空間の定義に依存することにより、多様で効率的なポリシーのレパートリーを生成するのに有効であることが証明されている。
このようなレパートリーの作成によって引き起こされる自然な目標は、レパートリーから対応するポリシーを実行することで実現可能な、需要に対する行動を達成することである。
しかし、不確実な環境では2つの問題が生じる。
第一に、ポリシーは堅牢性と再現性に欠ける可能性があるため、わずかに異なる条件下での複数のエピソードは、しばしば非常に異なる振る舞いをもたらす。
第二に、レパートリーの離散的性質のため、解は不連続に変化する。
本稿では,まず,行動空間において最も一貫した解に対する解の選択を制約するMAP-Elites Low-Spread (ME-LS) という2つのメカニズムに基づく行動条件付き軌道生成を実現するための新しい手法を提案する。
第二に、連続的な動作記述子に基づくトランスフォーマティブベースのモデルである quality-diversity transformer (qdt) は、me-lsレパートリーからのポリシによって生成されたデータセットをトレーニングし、ターゲットの動作を達成するアクションのシーケンスを自己回帰的に生成することを学ぶ。
その結果,ME-LSは一貫性とロバストなポリシを生成し,QDTと組み合わせることで,要求に対する多様な振る舞いを高い精度で達成可能な単一ポリシが得られることがわかった。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - OIL-AD: An Anomaly Detection Framework for Sequential Decision Sequences [16.828732283348817]
オフライン学習に基づく異常検出(OIL-AD)と呼ばれる教師なし手法を提案する。
OIL-ADは2つの抽出された行動特徴(行動最適性と順序関連)を用いて、意思決定シーケンスの異常を検出する。
実験の結果,OIL-ADはF1スコアを最大34.8%向上し,優れたオンライン異常検出性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-02-07T04:06:53Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Integrating LLMs and Decision Transformers for Language Grounded
Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。
本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。
また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-25T10:00:06Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Learning Robust Policy against Disturbance in Transition Dynamics via
State-Conservative Policy Optimization [63.75188254377202]
深層強化学習アルゴリズムは、ソースとターゲット環境の相違により、現実世界のタスクでは不十分な処理を行うことができる。
本研究では,前もって乱れをモデル化せずにロバストなポリシーを学習するための,モデルフリーなアクター批判アルゴリズムを提案する。
いくつかのロボット制御タスクの実験では、SCPOは遷移力学の乱れに対する堅牢なポリシーを学習している。
論文 参考訳(メタデータ) (2021-12-20T13:13:05Z) - A New Representation of Successor Features for Transfer across
Dissimilar Environments [60.813074750879615]
多くの実世界のRL問題は、異なるダイナミクスを持つ環境間での移動を必要とする。
ガウス過程を用いて後継特徴関数をモデル化する手法を提案する。
我々の理論的解析は、この手法の収束と、後続特徴関数のモデル化における有界誤差を証明している。
論文 参考訳(メタデータ) (2021-07-18T12:37:05Z) - QED: using Quality-Environment-Diversity to evolve resilient robot
swarms [12.18340575383456]
Swarm Roboticsでは、Swarm内のどのロボットも異なる障害の影響を受け、パフォーマンスが大幅に低下する可能性がある。
モデルのないフォールトリカバリアプローチには、2つのフェーズがある:シミュレーションの間、品質多様性アルゴリズムは、挙動的に多様なコントローラのアーカイブを進化させる。
環境多様性の影響は、適切な行動記述子を選択する際に無視されることが多い。
論文 参考訳(メタデータ) (2020-03-04T21:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。