論文の概要: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- arxiv url: http://arxiv.org/abs/2401.16452v3
- Date: Mon, 27 May 2024 08:38:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:54:38.264231
- Title: Context-Former: Stitching via Latent Conditioned Sequence Modeling
- Title(参考訳): Context-Former:潜時条件付きシーケンスモデリングによるスタンディング
- Authors: Ziqi Zhang, Jingzehua Xu, Jinxin Liu, Zifeng Zhuang, Donglin Wang, Miao Liu, Shuai Zhang,
- Abstract要約: コンテキスト情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入する。
実験では、ContextFormerは複数のIL設定で競合的なパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 31.250234478757665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) algorithms can learn better decision-making compared to behavior policies by stitching the suboptimal trajectories to derive more optimal ones. Meanwhile, Decision Transformer (DT) abstracts the RL as sequence modeling, showcasing competitive performance on offline RL benchmarks. However, recent studies demonstrate that DT lacks of stitching capacity, thus exploiting stitching capability for DT is vital to further improve its performance. In order to endow stitching capability to DT, we abstract trajectory stitching as expert matching and introduce our approach, ContextFormer, which integrates contextual information-based imitation learning (IL) and sequence modeling to stitch sub-optimal trajectory fragments by emulating the representations of a limited number of expert trajectories. To validate our approach, we conduct experiments from two perspectives: 1) We conduct extensive experiments on D4RL benchmarks under the settings of IL, and experimental results demonstrate ContextFormer can achieve competitive performance in multiple IL settings. 2) More importantly, we conduct a comparison of ContextFormer with various competitive DT variants using identical training datasets. The experimental results unveiled ContextFormer's superiority, as it outperformed all other variants, showcasing its remarkable performance.
- Abstract(参考訳): オフライン強化学習(RL)アルゴリズムは、最適軌道を縫い合わせることで行動ポリシーよりも優れた意思決定を学べる。
一方、決定変換器(DT)はRLをシーケンスモデリングとして抽象化し、オフラインのRLベンチマークで競合性能を示す。
しかし、最近の研究では、DTは縫合能力に欠けており、DTの縫合能力を活用することが、その性能をさらに向上させる上で不可欠であることが示されている。
DTに縫合能力を付与するために,専門的マッチングとしてトラジェクトリ縫合を抽象化し,文脈情報に基づく模倣学習(IL)とシーケンスモデリングを統合したContextFormerを導入し,限られた数の専門的トラジェクトリの表現をエミュレートして,準最適トラジェクトリ断片を縫合する。
アプローチを検証するために、私たちは2つの視点から実験を行います。
1) IL設定下でD4RLベンチマークを広範囲に実験し,複数のIL設定でContextFormerが競合性能を発揮することを示す実験結果を得た。
2)さらに重要なことは、同じトレーニングデータセットを使用して、ContextFormerと様々な競合DTの変種を比較することである。
実験の結果、ContextFormerの優位性は、他のすべての亜種よりも優れており、その顕著なパフォーマンスを示している。
関連論文リスト
- DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
現在の学習手法の多くは、学習者にとって最適な戦略を導き出すために、値関数のような積分的アイデンティティに焦点を当てている。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [38.63497972682599]
本研究では,3つのシナリオにまたがるアライメント手法の性能について検討した。
我々の評価は、対話システム、推論、数学的問題解決、質問応答、真理性、マルチタスク理解など、幅広いタスクにまたがる。
重要な観察では、アライメント手法は、より小さなトレーニングデータサブセットで最適なパフォーマンスを達成し、推論タスクにおいて限られた効果を示すが、数学的問題解決には著しく影響し、特に真理性に影響を及ぼす命令付きモデルを用いることが示されている。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Revisiting the Critical Factors of Augmentation-Invariant Representation
Learning [8.28445083127418]
我々は、MoCo v2とBYOLを再検討し、次の仮定の真正性を証明する。
我々は,MoCo v2とBYOLの公正比較のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2022-07-30T17:07:13Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。