Fugu-MT 論文翻訳(概要): DAPE: Data-Adaptive Positional Encoding for Length Extrapolation

論文の概要: DAPE: Data-Adaptive Positional Encoding for Length Extrapolation

arxiv url: http://arxiv.org/abs/2405.14722v4
Date: Wed, 09 Oct 2024 12:48:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 02:24:01.390196
Title: DAPE: Data-Adaptive Positional Encoding for Length Extrapolation
Title（参考訳）: DAPE:長さ外挿のためのデータ適応位置符号化
Authors: Chuanyang Zheng, Yihang Gao, Han Shi, Minbin Huang, Jingyao Li, Jing Xiong, Xiaozhe Ren, Michael Ng, Xin Jiang, Zhenguo Li, Yu Li,
Abstract要約: 位置符号化はトランスにおいて重要な役割を担い、モデル性能と一般化長に大きな影響を及ぼす。本研究では,訓練された長さと長さの一般化の観点からモデル性能を向上させるDAPE法を提案する。提案手法は, 他の静的位置符号化法と比較して, シーケンス長128でモデルをトレーニングし, 評価シーケンス長8192で性能を向上する。
参考スコア（独自算出の注目度）: 60.18239094672938
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Positional encoding plays a crucial role in transformers, significantly impacting model performance and length generalization. Prior research has introduced absolute positional encoding (APE) and relative positional encoding (RPE) to distinguish token positions in given sequences. However, both APE and RPE remain fixed after model training regardless of input data, limiting their adaptability and flexibility. Hence, we expect that the desired positional encoding should be data-adaptive and can be dynamically adjusted with the given attention. In this paper, we propose a Data-Adaptive Positional Encoding (DAPE) method, which dynamically and semantically adjusts based on input context and learned fixed priors. Experimental validation on real-world datasets (Arxiv, Books3, and CHE) demonstrates that DAPE enhances model performances in terms of trained length and length generalization, where the improvements are statistically significant. The model visualization suggests that our model can keep both local and anti-local information. Finally, we successfully train the model on sequence length 128 and achieve better performance at evaluation sequence length 8192, compared with other static positional encoding methods, revealing the benefit of the adaptive positional encoding method.
Abstract（参考訳）: 位置符号化はトランスにおいて重要な役割を担い、モデルの性能と長さの一般化に大きな影響を及ぼす。従来の研究では、絶対位置符号化(APE)と相対位置符号化(RPE)を導入して、与えられたシーケンスにおけるトークンの位置を区別している。しかし、APEとRPEは、入力データに関係なくモデルトレーニング後に固定され、適応性と柔軟性が制限される。したがって、所望の位置符号化はデータ適応的であり、所定の注意を払って動的に調整できることを期待する。本稿では,データ適応型位置符号化(DAPE)手法を提案する。実世界のデータセット(Arxiv, Books3, CHE)に対する実験的な検証は、DAPEが訓練された長さと長さの一般化の観点からモデル性能を向上させることを示した。モデルビジュアライゼーションは、我々のモデルがローカル情報とアンチローカル情報の両方を保持することを示唆している。最後に,配列長128でモデルをトレーニングし,他の静的位置符号化法と比較して,評価シーケンス長8192での性能向上を実現し,適応位置符号化法の利点を明らかにした。

関連論文リスト

SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文参考訳（メタデータ） (2025-06-16T09:16:40Z)
Learnable Spatial-Temporal Positional Encoding for Link Prediction [44.0907827498725]
L-STEP という単純な時間リンク予測モデルを提案する。 L-STEPは、空間時間スペクトルの観点からグラフ特性を保存することができる。 L-STEPは最新の大規模TGBベンチマークで主要な性能を得る。
論文参考訳（メタデータ） (2025-06-10T00:35:53Z)
PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2025-05-22T08:36:09Z)
Context-aware Biases for Length Extrapolation [0.0]
長さ補間のための付加的RPE, コンテキスト認識バイアス(CABLE)を提案する。入力シーケンスに基づいて位置バイアスを動的に調整することにより、CABLEは固定されたRPEの剛性を克服する。提案手法はFineWeb-Edu10BおよびWikiText-103データセット上でテストされた既存のRPE手法の性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-03-11T05:54:58Z)
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding [89.52931576290976]
トランスフォーマーは、コンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存して予測を行う。 TAPEは、レイヤ間のシーケンスコンテンツを組み込むことで、位置埋め込みを強化する新しいフレームワークである。提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
論文参考訳（メタデータ） (2025-01-01T03:23:00Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。 CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文参考訳（メタデータ） (2023-05-27T03:05:07Z)
Improving Position Encoding of Transformers for Multivariate Time Series Classification [5.467400475482668]
本稿では,時間絶対位置という時系列データ専用の絶対位置符号化手法を提案する。次に,TAPE/eRPEとConvTranという名前の畳み込み型入力符号化を組み合わせた新しい時系列分類(MTSC)モデルを提案し,時系列データの位置とデータ埋め込みを改善する。
論文参考訳（メタデータ） (2023-05-26T05:30:04Z)
Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。 ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文参考訳（メタデータ） (2023-03-29T12:28:01Z)
Transformers for End-to-End InfoSec Tasks: A Feasibility Study [6.847381178288385]
私たちは2つの異なるInfoSecデータフォーマット、特にURLとPEファイルに対してトランスフォーマーモデルを実装します。 URLトランスフォーマーモデルは、高いパフォーマンスレベルに達するためには、異なるトレーニングアプローチが必要です。提案手法は,PEファイルのベンチマークデータセット上で,確立されたマルウェア検出モデルに相容れない性能を示す。
論文参考訳（メタデータ） (2022-12-05T23:50:46Z)
Back to the Source: Diffusion-Driven Test-Time Adaptation [77.4229736436935]
テスト時間適応はテスト入力を利用し、シフトしたターゲットデータ上でテストした場合、ソースデータに基づいてトレーニングされたモデルの精度を向上させる。代わりに、生成拡散モデルを用いて、すべてのテスト入力をソース領域に向けて投影することで、ターゲットデータを更新する。
論文参考訳（メタデータ） (2022-07-07T17:14:10Z)
Adaptive Fine-Tuning of Transformer-Based Language Models for Named Entity Recognition [0.0]
微調整言語モデルに対する現在の標準的なアプローチは、一定数の訓練エポックと線形学習率スケジュールを含む。本稿では,早期停止と独自の学習率スケジュールを用いた適応微調整手法を提案する。
論文参考訳（メタデータ） (2022-02-05T19:20:03Z)
Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文参考訳（メタデータ） (2021-12-13T13:19:45Z)
Adaptive L2 Regularization in Person Re-Identification [0.9195729979000402]
人物再識別の設定に適応的なL2正規化機構を導入する。 Market-1501、DukeMTMC-reID、MSMT17データセットの実験により、我々のフレームワークの有効性が検証された。
論文参考訳（メタデータ） (2020-07-15T17:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。