論文の概要: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- arxiv url: http://arxiv.org/abs/2401.16452v2
- Date: Sat, 3 Feb 2024 04:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 02:28:03.808154
- Title: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- Title(参考訳): Context-Former:潜時条件付きシーケンスモデリングによるスタンディング
- Authors: Ziqi Zhang, Jingzehua Xu, Jinxin Liu, Zifeng Zhuang, Donglin Wang
- Abstract要約: 決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマークで競合性能を示す。
本稿では,文脈情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを提案する。
- 参考スコア(独自算出の注目度): 30.936771021851918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) algorithms can improve the decision
making via stitching sub-optimal trajectories to obtain more optimal ones. This
capability is a crucial factor in enabling RL to learn policies that are
superior to the behavioral policy. On the other hand, Decision Transformer (DT)
abstracts the decision-making as sequence modeling, showcasing competitive
performance on offline RL benchmarks, however, recent studies demonstrate that
DT lacks of stitching capability, thus exploit stitching capability for DT is
vital to further improve its performance. In order to endow stitching
capability to DT, we abstract trajectory stitching as expert matching and
introduce our approach, ContextFormer, which integrates contextual
information-based imitation learning (IL) and sequence modeling to stitch
sub-optimal trajectory fragments by emulating the representations of a limited
number of expert trajectories. To validate our claim, we conduct experiments
from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks
under the settings of IL, and experimental results demonstrate ContextFormer
can achieve competitive performance in multi-IL settings. 2) More importantly,
we conduct a comparison of ContextFormer with diverse competitive DT variants
using identical training datasets. The experimental results unveiled
ContextFormer's superiority, as it outperformed all other variants, showcasing
its remarkable performance.
- Abstract(参考訳): オフライン強化学習(rl)アルゴリズムは、サブ最適軌道を縫い合わせることによって、より最適なものを得る。
この能力は、RLが行動ポリシーよりも優れたポリシーを学習できるようにする上で重要な要素である。
一方、決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマーク上での競合性能を示すが、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することは、その性能をさらに向上するために不可欠である。
dtに縫い付け能力を与えるため,ストレッチステッチをエキスパートマッチングとして抽象化し,コンテキスト情報に基づく模倣学習(il)とシーケンスモデリングを統合し,限られた数のエキスパートトラジェクタの表現をエミュレートし,準最適軌道フラグメントを縫合するcontextformerを提案する。
主張を検証するために、我々は2つの視点から実験を行う。
1)ilの設定下でd4rlベンチマークを広範囲に実験し,マルチil環境でのコンテクストフォーマーの競争力を実証した。
2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと多様な競合DTの変種を比較することである。
実験の結果、コンテクストフォーマーの優位性が他の全ての派生型を上回り、その優れた性能を示した。
関連論文リスト
- DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
現在の学習手法の多くは、学習者にとって最適な戦略を導き出すために、値関数のような積分的アイデンティティに焦点を当てている。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [38.63497972682599]
本研究では,3つのシナリオにまたがるアライメント手法の性能について検討した。
我々の評価は、対話システム、推論、数学的問題解決、質問応答、真理性、マルチタスク理解など、幅広いタスクにまたがる。
重要な観察では、アライメント手法は、より小さなトレーニングデータサブセットで最適なパフォーマンスを達成し、推論タスクにおいて限られた効果を示すが、数学的問題解決には著しく影響し、特に真理性に影響を及ぼす命令付きモデルを用いることが示されている。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Revisiting the Critical Factors of Augmentation-Invariant Representation
Learning [8.28445083127418]
我々は、MoCo v2とBYOLを再検討し、次の仮定の真正性を証明する。
我々は,MoCo v2とBYOLの公正比較のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2022-07-30T17:07:13Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。