論文の概要: DAPE: Data-Adaptive Positional Encoding for Length Extrapolation
- arxiv url: http://arxiv.org/abs/2405.14722v4
- Date: Wed, 09 Oct 2024 12:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 11:49:17.119582
- Title: DAPE: Data-Adaptive Positional Encoding for Length Extrapolation
- Title(参考訳): DAPE:長さ外挿のためのデータ適応位置符号化
- Authors: Chuanyang Zheng, Yihang Gao, Han Shi, Minbin Huang, Jingyao Li, Jing Xiong, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li,
- Abstract要約: 位置符号化はトランスにおいて重要な役割を担い、モデル性能と一般化長に大きな影響を及ぼす。
本研究では,訓練された長さと長さの一般化の観点からモデル性能を向上させるDAPE法を提案する。
提案手法は, 他の静的位置符号化法と比較して, シーケンス長128でモデルをトレーニングし, 評価シーケンス長8192で性能を向上する。
- 参考スコア(独自算出の注目度): 60.18239094672938
- License:
- Abstract: Positional encoding plays a crucial role in transformers, significantly impacting model performance and length generalization. Prior research has introduced absolute positional encoding (APE) and relative positional encoding (RPE) to distinguish token positions in given sequences. However, both APE and RPE remain fixed after model training regardless of input data, limiting their adaptability and flexibility. Hence, we expect that the desired positional encoding should be data-adaptive and can be dynamically adjusted with the given attention. In this paper, we propose a Data-Adaptive Positional Encoding (DAPE) method, which dynamically and semantically adjusts based on input context and learned fixed priors. Experimental validation on real-world datasets (Arxiv, Books3, and CHE) demonstrates that DAPE enhances model performances in terms of trained length and length generalization, where the improvements are statistically significant. The model visualization suggests that our model can keep both local and anti-local information. Finally, we successfully train the model on sequence length 128 and achieve better performance at evaluation sequence length 8192, compared with other static positional encoding methods, revealing the benefit of the adaptive positional encoding method.
- Abstract(参考訳): 位置符号化はトランスにおいて重要な役割を担い、モデルの性能と長さの一般化に大きな影響を及ぼす。
従来の研究では、絶対位置符号化(APE)と相対位置符号化(RPE)を導入して、与えられたシーケンスにおけるトークンの位置を区別している。
しかし、APEとRPEは、入力データに関係なくモデルトレーニング後に固定され、適応性と柔軟性が制限される。
したがって、所望の位置符号化はデータ適応的であり、所定の注意を払って動的に調整できることを期待する。
本稿では,データ適応型位置符号化(DAPE)手法を提案する。
実世界のデータセット(Arxiv, Books3, CHE)に対する実験的な検証は、DAPEが訓練された長さと長さの一般化の観点からモデル性能を向上させることを示した。
モデルビジュアライゼーションは、我々のモデルがローカル情報とアンチローカル情報の両方を保持することを示唆している。
最後に,配列長128でモデルをトレーニングし,他の静的位置符号化法と比較して,評価シーケンス長8192での性能向上を実現し,適応位置符号化法の利点を明らかにした。
関連論文リスト
- Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - Improving Position Encoding of Transformers for Multivariate Time Series
Classification [5.467400475482668]
本稿では,時間絶対位置という時系列データ専用の絶対位置符号化手法を提案する。
次に,TAPE/eRPEとConvTranという名前の畳み込み型入力符号化を組み合わせた新しい時系列分類(MTSC)モデルを提案し,時系列データの位置とデータ埋め込みを改善する。
論文 参考訳(メタデータ) (2023-05-26T05:30:04Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z) - Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。
URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。
提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文 参考訳(メタデータ) (2022-12-05T23:50:46Z) - Back to the Source: Diffusion-Driven Test-Time Adaptation [77.4229736436935]
テスト時間適応はテスト入力を利用し、シフトしたターゲットデータ上でテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。
代わりに、生成拡散モデルを用いて、すべてのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。
論文 参考訳(メタデータ) (2022-07-07T17:14:10Z) - Adaptive Fine-Tuning of Transformer-Based Language Models for Named
Entity Recognition [0.0]
微調整言語モデルに対する現在の標準的なアプローチは、一定数の訓練エポックと線形学習率スケジュールを含む。
本稿では,早期停止と独自の学習率スケジュールを用いた適応微調整手法を提案する。
論文 参考訳(メタデータ) (2022-02-05T19:20:03Z) - Lifelong Unsupervised Domain Adaptive Person Re-identification with
Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。
これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。
我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文 参考訳(メタデータ) (2021-12-13T13:19:45Z) - Adaptive L2 Regularization in Person Re-Identification [0.9195729979000402]
人物再識別の設定に適応的なL2正規化機構を導入する。
Market-1501、DukeMTMC-reID、MSMT17データセットの実験により、我々のフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2020-07-15T17:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。