論文の概要: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- arxiv url: http://arxiv.org/abs/2401.16452v1
- Date: Mon, 29 Jan 2024 06:05:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:42:19.262997
- Title: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- Title(参考訳): Context-Former:潜時条件付きシーケンスモデリングによるスタンディング
- Authors: Ziqi Zhang, Jingzehua Xu, Zifeng Zhuang, Jinxin Liu, Donglin wang
- Abstract要約: 決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマークで競合性能を示す。
本稿では,文脈情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを提案する。
- 参考スコア(独自算出の注目度): 30.936771021851918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) algorithms can improve the decision
making via stitching sub-optimal trajectories to obtain more optimal ones. This
capability is a crucial factor in enabling RL to learn policies that are
superior to the behavioral policy. On the other hand, Decision Transformer (DT)
abstracts the decision-making as sequence modeling, showcasing competitive
performance on offline RL benchmarks, however, recent studies demonstrate that
DT lacks of stitching capability, thus exploit stitching capability for DT is
vital to further improve its performance. In order to endow stitching
capability to DT, we abstract trajectory stitching as expert matching and
introduce our approach, ContextFormer, which integrates contextual
information-based imitation learning (IL) and sequence modeling to stitch
sub-optimal trajectory fragments by emulating the representations of a limited
number of expert trajectories. To validate our claim, we conduct experiments
from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks
under the settings of IL, and experimental results demonstrate ContextFormer
can achieve competitive performance in multi-IL settings. 2) More importantly,
we conduct a comparison of ContextFormer with diverse competitive DT variants
using identical training datasets. The experimental results unveiled
ContextFormer's superiority, as it outperformed all other variants, showcasing
its remarkable performance.
- Abstract(参考訳): オフライン強化学習(rl)アルゴリズムは、サブ最適軌道を縫い合わせることによって、より最適なものを得る。
この能力は、RLが行動ポリシーよりも優れたポリシーを学習できるようにする上で重要な要素である。
一方、決定変換器(DT)は、決定をシーケンスモデリングとして抽象化し、オフラインのRLベンチマーク上での競合性能を示すが、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することは、その性能をさらに向上するために不可欠である。
dtに縫い付け能力を与えるため,ストレッチステッチをエキスパートマッチングとして抽象化し,コンテキスト情報に基づく模倣学習(il)とシーケンスモデリングを統合し,限られた数のエキスパートトラジェクタの表現をエミュレートし,準最適軌道フラグメントを縫合するcontextformerを提案する。
主張を検証するために、我々は2つの視点から実験を行う。
1)ilの設定下でd4rlベンチマークを広範囲に実験し,マルチil環境でのコンテクストフォーマーの競争力を実証した。
2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと多様な競合DTの変種を比較することである。
実験の結果、コンテクストフォーマーの優位性が他の全ての派生型を上回り、その優れた性能を示した。
関連論文リスト
- Q-value Regularized Decision ConvFormer for Offline Reinforcement Learning [5.398202201395825]
Decision Transformer (DT) はオフライン強化学習において例外的な能力を示した。
Decision ConvFormer (DC) はマルコフ決定プロセス内のRL軌道のモデル化の文脈で理解しやすい。
本稿では,Q-value Regularized Decision ConvFormer(QDC)を提案する。
論文 参考訳(メタデータ) (2024-09-12T14:10:22Z) - Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - DiffTORI: Differentiable Trajectory Optimization for Deep Reinforcement and Imitation Learning [19.84386060857712]
本稿では、微分軌道最適化をポリシー表現として活用し、深層強化と模倣学習のためのアクションを生成するDiffTORIを提案する。
15のモデルベースRLタスクと35の模倣学習タスクに高次元画像と点クラウド入力があり、DiffTORIはどちらのドメインでも最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-02-08T05:26:40Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。