論文の概要: Enhancing Cross-domain Pre-Trained Decision Transformers with Adaptive Attention
- arxiv url: http://arxiv.org/abs/2409.06985v1
- Date: Wed, 11 Sep 2024 03:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 15:47:11.599276
- Title: Enhancing Cross-domain Pre-Trained Decision Transformers with Adaptive Attention
- Title(参考訳): 適応的注意を伴うクロスドメイン事前学習決定変換器の強化
- Authors: Wenhao Zhao, Qiushui Xu, Linjie Xu, Lei Song, Jinyu Wang, Chunlai Zhou, Jiang Bian,
- Abstract要約: オフライン強化学習(Offline RL)において、決定変換器(DT)のクロスドメイン事前学習が注目されている。
そこで本研究では,事前学習したDTと混合注意(MoA)を併用したGPT-DTMAを提案する。
実験により, GPT-DTMAはベースラインに比べて短期環境において優れた性能を示し, 長期環境においてはマルコフマトリックスによる負の影響を緩和する。
- 参考スコア(独自算出の注目度): 10.631495275246428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the pre-training of decision transformers (DT) using a different domain, such as natural language text, has generated significant attention in offline reinforcement learning (Offline RL). Although this cross-domain pre-training approach achieves superior performance compared to training from scratch in environments required short-term planning ability, the mechanisms by which pre-training benefits the fine-tuning phase remain unclear. Furthermore, we point out that the cross-domain pre-training approach hinders the extraction of distant information in environments like PointMaze that require long-term planning ability, leading to performance that is much worse than training DT from scratch. This work first analyzes these issues and found that Markov Matrix, a component that exists in pre-trained attention heads, is the key to explain the significant performance disparity of pre-trained models in different planning abilities. Inspired by our analysis, we propose a general method GPT-DTMA, which equips a pre-trained DT with Mixture of Attention (MoA), to enable adaptive learning and accommodating diverse attention requirements during fine-tuning. Extensive experiments demonstrate that the effectiveness of GPT-DTMA: it achieves superior performance in short-term environments compared to baselines, and in long-term environments, it mitigates the negative impact caused by Markov Matrix, achieving results comparable to those of DT trained from scratch.
- Abstract(参考訳): 近年,自然言語テキストなどの異なる領域を用いた意思決定変換器(DT)の事前学習は,オフライン強化学習(Offline RL)において大きな注目を集めている。
このクロスドメイン事前学習アプローチは、短期計画能力を必要とする環境において、スクラッチからトレーニングするよりも優れた性能を実現するが、事前学習が微調整フェーズに恩恵をもたらすメカニズムはいまだ不明である。
さらに、クロスドメイン事前学習アプローチは、長期計画能力を必要とするPointMazeのような環境での遠隔情報抽出を妨げ、DTをスクラッチからトレーニングするよりもはるかに悪いパフォーマンスをもたらすことを指摘した。
この研究はまずこれらの問題を解析し、事前学習された注意ヘッドに存在するコンポーネントであるMarkov Matrixが、異なる計画能力における事前学習されたモデルの顕著なパフォーマンス格差を説明する鍵であることを発見した。
そこで本研究では,事前学習したDTとMixture of Attention (MoA)を併用したGPT-DTMAを提案する。
GPT-DTMAの有効性は、ベースラインよりも短期環境の方が優れており、長期環境ではマルコフマトリックスによる負の影響を軽減し、スクラッチからトレーニングしたDTに匹敵する結果が得られる。
関連論文リスト
- Learn to Preserve and Diversify: Parameter-Efficient Group with Orthogonal Regularization for Domain Generalization [28.977757627384165]
ドメイン・ドメイン(DG)は、限られたトレーニングデータと見つからないテストデータの間の分散シフトが発生したとき、モデルの性能劣化を避けることを目的としている。
近年、膨大なパラメータを持つ基礎モデルは、膨大なデータセットで事前訓練されており、強力な一般化能力を示している。
我々のフレームワークは5つのDGベンチマークでSOTA性能を実現し、テストコストを増すことなく少数のパラメータをトレーニングするのみである。
論文 参考訳(メタデータ) (2024-07-21T07:50:49Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Cross-Regularization [78.61621802973262]
トレーニング済み重量を効率的に更新するための直交微調整法を提案する。
クロスレギュラー化戦略はゼロショットの一般化の観点から安定性を維持するためにも用いられる。
提案手法は,タスク固有の知識を表現するために,事前学習した重み空間を明示的に操るものであることを実証するために,広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - HiDe-PET: Continual Learning via Hierarchical Decomposition of Parameter-Efficient Tuning [55.88910947643436]
予備学習モデル(PTM)とパラメータ効率チューニング(PET)を組み合わせた連続学習(CL)統合フレームワークを提案する。
タスク固有知識とタスク共有知識を取り入れることで目的を明示的に最適化する革新的な手法である階層分解PET(HiDe-PET)を提案する。
提案手法は,近年の強いベースラインの幅広いスペクトルに対して,極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-07T01:50:25Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Evolving Domain Adaptation of Pretrained Language Models for Text
Classification [24.795214770636534]
進化するドメインシフト(EDS)の中で、時系列テキスト分類に事前訓練された言語モデル(PLM)を適用することは、スタンス検出のようなアプリケーションにおける精度を維持するために重要である。
本研究では, 自己学習, ドメイン・アドバイザリ・トレーニング, ドメイン・アダプティブ・プレトレーニングなど, 進化するドメイン適応(EDA)戦略の有効性を, 漸進的な自己学習手法に焦点をあてて評価する。
論文 参考訳(メタデータ) (2023-11-16T08:28:00Z) - Distribution-Aware Continual Test-Time Adaptation for Semantic Segmentation [33.75630514826721]
実世界の応用において, セマンティックセグメンテーションCTTAを効率的かつ実用的なものにするための分散対応チューニング(DAT)手法を提案する。
DATは、連続的な適応プロセス中にデータ分布に基づいて、トレーニング可能なパラメータの2つの小さなグループを適応的に選択し、更新する。
我々は2つの広く使われているセマンティックセマンティックセマンティクスCTTAベンチマークで実験を行い、従来の最先端手法と比較して有望な性能を実現した。
論文 参考訳(メタデータ) (2023-09-24T10:48:20Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - PACTran: PAC-Bayesian Metrics for Estimating the Transferability of
Pretrained Models to Classification Tasks [22.41824478940036]
PACTranは、事前訓練されたモデル選択と転送可能性測定のための理論的に基礎付けられたメトリクスのファミリーである。
この結果から, PACTran は既存の選択法と比較して, より一貫性があり, 有効であることが示された。
論文 参考訳(メタデータ) (2022-03-10T02:54:56Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。