論文の概要: Waypoint Transformer: Reinforcement Learning via Supervised Learning
with Intermediate Targets
- arxiv url: http://arxiv.org/abs/2306.14069v2
- Date: Sat, 18 Nov 2023 08:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:00:57.087596
- Title: Waypoint Transformer: Reinforcement Learning via Supervised Learning
with Intermediate Targets
- Title(参考訳): Waypoint Transformer:中間目標を用いた監視学習による強化学習
- Authors: Anirudhan Badrinath and Yannis Flet-Berliac and Allen Nie and Emma
Brunskill
- Abstract要約: 中間目標を統合化してRvS法を強化する新しい手法を提案する。
我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。
その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 30.044393664203483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advancements in offline reinforcement learning via
supervised learning (RvS) and the success of the decision transformer (DT)
architecture in various domains, DTs have fallen short in several challenging
benchmarks. The root cause of this underperformance lies in their inability to
seamlessly connect segments of suboptimal trajectories. To overcome this
limitation, we present a novel approach to enhance RvS methods by integrating
intermediate targets. We introduce the Waypoint Transformer (WT), using an
architecture that builds upon the DT framework and conditioned on
automatically-generated waypoints. The results show a significant increase in
the final return compared to existing RvS methods, with performance on par or
greater than existing state-of-the-art temporal difference learning-based
methods. Additionally, the performance and stability improvements are largest
in the most challenging environments and data configurations, including AntMaze
Large Play/Diverse and Kitchen Mixed/Partial.
- Abstract(参考訳): 教師付き学習(RvS)によるオフライン強化学習の最近の進歩と、さまざまな領域における決定変換器(DT)アーキテクチャの成功にもかかわらず、DTはいくつかの挑戦的なベンチマークで不足している。
この低性能の根本原因は、準最適軌道のセグメントをシームレスに接続できないことである。
この限界を克服するために,中間目標を統合することでrss法を強化する新しい手法を提案する。
我々は、DTフレームワーク上に構築され、自動生成されたウェイポイントに条件付けされたアーキテクチャを用いて、WT(Waypoint Transformer)を導入する。
その結果,従来のRvS法と比較して最終帰納率は有意に増加し,従来の時間差分学習法よりも同等以上の性能を示した。
さらに、パフォーマンスと安定性の改善は、AntMaze Large Play/DiverseやKitchen Mixed/Partialなど、最も困難な環境とデータ構成において最大である。
関連論文リスト
- Predictive Coding for Decision Transformer [21.28952990360392]
決定変換器(DT)アーキテクチャは、様々な領域で約束されている。
最初の成功にもかかわらず、DTはゴール条件付きRLのいくつかの挑戦的なデータセットで性能が劣っている。
本稿では、一般化された将来の条件付けを活用してDT手法を強化するPCDT(Predictive Coding for Decision Transformer)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-04T13:17:34Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DiffClass: Diffusion-Based Class Incremental Learning [30.514281721324853]
クラスインクリメンタルラーニング(CIL)は破滅的な忘れが原因で困難である。
最近の例のないCIL手法は、過去のタスクデータを合成することによって破滅的な忘れを軽減しようとする。
そこで本研究では,これらの問題を克服するために,新しい非定型CIL法を提案する。
論文 参考訳(メタデータ) (2024-03-08T03:34:18Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Delving into Transformer for Incremental Semantic Segmentation [24.811247377533178]
インクリメンタルセマンティックセグメンテーション(ISS)は、新しいクラスを追加することで古いモデルを更新する新しいタスクである。
そこで本研究では,ISSのためのトランスフォーマー方式を提案し,それに基づいてISSを提案する。
広範囲な実験環境下では,本手法は最先端のインクリメンタルセマンティックセグメンテーション法よりも優れていた。
論文 参考訳(メタデータ) (2022-11-18T14:16:04Z) - Enhancing the Robustness, Efficiency, and Diversity of Differentiable
Architecture Search [25.112048502327738]
微分可能なアーキテクチャサーチ(DARTS)は、その単純さと効率の大幅な向上により、多くの注目を集めている。
多くの研究は、インジケータや手動設計によるスキップ接続の蓄積を制限しようと試みている。
操作空間からスキップ接続を除去する、より微妙で直接的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-10T13:25:36Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。