論文の概要: Generalized Decision Transformer for Offline Hindsight Information
Matching
- arxiv url: http://arxiv.org/abs/2111.10364v2
- Date: Tue, 23 Nov 2021 13:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 09:52:29.651647
- Title: Generalized Decision Transformer for Offline Hindsight Information
Matching
- Title(参考訳): オフライン視情報マッチングのための一般化決定変換器
- Authors: Hiroki Furuta, Yutaka Matsuo, Shixiang Shane Gu
- Abstract要約: 本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
- 参考スコア(独自算出の注目度): 16.7594941269479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How to extract as much learning signal from each trajectory data has been a
key problem in reinforcement learning (RL), where sample inefficiency has posed
serious challenges for practical applications. Recent works have shown that
using expressive policy function approximators and conditioning on future
trajectory information -- such as future states in hindsight experience replay
or returns-to-go in Decision Transformer (DT) -- enables efficient learning of
multi-task policies, where at times online RL is fully replaced by offline
behavioral cloning, e.g. sequence modeling. We demonstrate that all these
approaches are doing hindsight information matching (HIM) -- training policies
that can output the rest of trajectory that matches some statistics of future
state information. We present Generalized Decision Transformer (GDT) for
solving any HIM problem, and show how different choices for the feature
function and the anti-causal aggregator not only recover DT as a special case,
but also lead to novel Categorical DT (CDT) and Bi-directional DT (BDT) for
matching different statistics of the future. For evaluating CDT and BDT, we
define offline multi-task state-marginal matching (SMM) and imitation learning
(IL) as two generic HIM problems, propose a Wasserstein distance loss as a
metric for both, and empirically study them on MuJoCo continuous control
benchmarks. CDT, which simply replaces anti-causal summation with anti-causal
binning in DT, enables the first effective offline multi-task SMM algorithm
that generalizes well to unseen and even synthetic multi-modal state-feature
distributions. BDT, which uses an anti-causal second transformer as the
aggregator, can learn to model any statistics of the future and outperforms DT
variants in offline multi-task IL. Our generalized formulations from HIM and
GDT greatly expand the role of powerful sequence modeling architectures in
modern RL.
- Abstract(参考訳): 各軌跡データから学習信号を抽出する方法は強化学習(RL)において重要な問題であり、サンプルの非効率性は実用上深刻な課題となっている。
近年の研究では、後見経験リプレイや意思決定トランスフォーマ(dt)におけるリターン・トゥ・ゴーといった、将来の軌道情報に対する表現的ポリシー関数の近似とコンディショニングを用いることで、オンラインrlがオフライン動作のクローン(シーケンスモデリングなど)によって完全に置き換えられるようなマルチタスクポリシの効率的な学習が可能になる。
これらすべてのアプローチが、将来の状態情報の統計に一致する軌道の残りの部分を出力できるトレーニングポリシーを、後向きの情報マッチング(HIM)によって実行していることを実証する。
我々は,HIM問題を解くための一般化決定変換器(GDT)を提案し,特徴関数と反因果アグリゲータの異なる選択が,DTを特別なケースとして回収するだけでなく,将来の異なる統計値に適合する新たなカテゴリーDT(CDT)と双方向DT(BDT)をもたらすことを示す。
CDTとBDTの評価では、オフラインマルチタスク状態マージナルマッチング(SMM)と模倣学習(IL)を2つの一般的なHIM問題として定義し、両者のメトリクスとしてワッサーシュタイン距離損失を提案し、MuJoCo連続制御ベンチマークでそれらを実証研究する。
cdtは、単に抗causal和をdtの抗causalbinningに置き換えるだけで、初めて有効なオフラインマルチタスクsmmアルゴリズムを可能にし、未発見および合成のマルチモーダル状態特徴分布にうまく一般化する。
BDTは、アグリゲータとして反因果第2変圧器を使用し、将来の統計をモデル化し、オフラインマルチタスクILにおいてDT変圧器より優れていることを学習することができる。
HIMとGDTの一般化された定式化は、現代のRLにおける強力なシーケンスモデリングアーキテクチャの役割を大きく広げます。
関連論文リスト
- RGMDT: Return-Gap-Minimizing Decision Tree Extraction in Non-Euclidean Metric Space [28.273737052758907]
オラクルの専門家政策と最適決定木政策のリターンギャップの上限について紹介する。
これにより、各エージェントの局所的な観測と行動値空間上で、DT抽出問題を新しい非ユークリッドクラスタリング問題に再キャストすることができる。
また,Return-Gap-Minimization Decision Tree (RGMDT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:19:49Z) - Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。
本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。
我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-02T17:25:34Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Distribution-Aware Continual Test-Time Adaptation for Semantic Segmentation [33.75630514826721]
実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするための分散対応チューニング(DAT)手法を提案する。
DATは、連続的な適応プロセス中にデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。
我々は2つの広く使われているセマンティックセマンティックセマンティクスCTTAベンチマークで実験を行い、従来の最先端手法と比較して有望な性能を実現した。
論文 参考訳(メタデータ) (2023-09-24T10:48:20Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - DBT-DMAE: An Effective Multivariate Time Series Pre-Train Model under
Missing Data [16.589715330897906]
MTSはデータ不足に悩まされ、下流のタスクが劣化または崩壊する。
本稿では,MTSプレトレインモデルについて述べる。
-DMAE、上記の障害を克服する。
論文 参考訳(メタデータ) (2022-09-16T08:54:02Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。