論文の概要: Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
- arxiv url: http://arxiv.org/abs/2501.00712v1
- Date: Wed, 01 Jan 2025 03:23:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:32.770871
- Title: Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding
- Title(参考訳): 等角化等変位置エンコーディングによる言語モデルのアドレス再考
- Authors: Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang,
- Abstract要約: トランスフォーマーは、コンテンツベースと位置ベースのアドレッシングメカニズムの両方に依存して予測を行う。
TAPEは、レイヤ間のシーケンスコンテンツを組み込むことで、位置埋め込みを強化する新しいフレームワークである。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
- 参考スコア(独自算出の注目度): 89.52931576290976
- License:
- Abstract: Transformers rely on both content-based and position-based addressing mechanisms to make predictions, but existing positional encoding techniques often diminish the effectiveness of position-based addressing. Many current methods enforce rigid patterns in attention maps, limiting the ability to model long-range dependencies and adapt to diverse tasks. Additionally, most positional encodings are learned as general biases, lacking the specialization required for different instances within a dataset. To address this, we propose con$\textbf{T}$extualized equivari$\textbf{A}$nt $\textbf{P}$osition $\textbf{E}$mbedding ($\textbf{TAPE}$), a novel framework that enhances positional embeddings by incorporating sequence content across layers. TAPE introduces dynamic, context-aware positional encodings, overcoming the constraints of traditional fixed patterns. By enforcing permutation and orthogonal equivariance, TAPE ensures the stability of positional encodings during updates, improving robustness and adaptability. Our method can be easily integrated into pre-trained transformers, offering parameter-efficient fine-tuning with minimal overhead. Extensive experiments shows that TAPE achieves superior performance in language modeling, arithmetic reasoning, and long-context retrieval tasks compared to existing positional embedding techniques.
- Abstract(参考訳): トランスフォーマーはコンテンツベースと位置ベースのアドレッシング機構の両方に依存して予測を行うが、既存の位置エンコーディング技術は位置ベースのアドレッシングの有効性を低下させることが多い。
多くの現行の手法では、注意マップの厳格なパターンを強制し、長距離依存をモデル化し、多様なタスクに適応する能力を制限する。
さらに、ほとんどの位置エンコーディングは一般的なバイアスとして学習され、データセット内の異なるインスタンスに必要な特殊化が欠如している。
これを解決するために、con$\textbf{T}$extualized equivari$\textbf{A}$nt $\textbf{P}$osition$\textbf{E}$mbedding$\textbf{TAPE}$という新しいフレームワークを提案する。
TAPEは動的でコンテキスト対応な位置符号化を導入し、従来の固定パターンの制約を克服している。
置換と直交均等を強制することにより、TAPEは更新中の位置エンコーディングの安定性を確保し、堅牢性と適応性を向上させる。
提案手法は,パラメータ効率の良い微調整を最小限のオーバーヘッドで実現し,事前学習した変換器に容易に組み込むことができる。
拡張実験により,TAPEは既存の位置埋め込み技術と比較して,言語モデリング,算術的推論,長文検索タスクにおいて優れた性能を発揮することが示された。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
各文字を特定のバイトにマッピングするUnicodeエンコーディングは、新しい言語においても未知の単語の出現を排除している。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本稿では,アダプティブ・マルチスケール・ハイド・アテンション(Ada-MSHA)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - The Balanced-Pairwise-Affinities Feature Transform [2.3020018305241337]
BPA機能変換は、入力項目のセットの機能をアップグレードして、下流のマッチングや関連するタスクのグループ化を容易にするように設計されている。
特定の min- Cost-max-flow の分数マッチング問題は、効率的、微分可能、同変、パラメータレス、確率論的に解釈可能な変換をもたらす。
経験的には、この変換はその使用において非常に効果的で柔軟性があり、様々なタスクやトレーニングスキームにおいて挿入されるネットワークを継続的に改善する。
論文 参考訳(メタデータ) (2024-06-25T14:28:05Z) - DAPE: Data-Adaptive Positional Encoding for Length Extrapolation [60.18239094672938]
位置符号化はトランスにおいて重要な役割を担い、モデル性能と一般化長に大きな影響を及ぼす。
本研究では,訓練された長さと長さの一般化の観点からモデル性能を向上させるDAPE法を提案する。
提案手法は, 他の静的位置符号化法と比較して, シーケンス長128でモデルをトレーニングし, 評価シーケンス長8192で性能を向上する。
論文 参考訳(メタデータ) (2024-05-23T15:51:24Z) - A Frustratingly Easy Improvement for Position Embeddings via Random
Padding [68.75670223005716]
本稿では,既存の事前学習型言語モデルを変更することなく,シンプルかつ効果的なランダムパディング手法を提案する。
実験により、ランダムパディングは、応答が後位置にあるインスタンスのモデル性能を著しく改善できることが示された。
論文 参考訳(メタデータ) (2023-05-08T17:08:14Z) - Multiplicative Position-aware Transformer Models for Language
Understanding [17.476450946279037]
自己アテンションのようなアーキテクチャ改善を活用するトランスフォーマーモデルは、自然言語処理(NLP)タスクにおいて極めてよく機能する。
本稿では,既存の主要な位置埋め込み手法を概説し,その精度を下流NLPタスクで比較する。
また,既存手法と比較して精度が向上する新しい乗法埋め込み法を提案する。
論文 参考訳(メタデータ) (2021-09-27T04:18:32Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。
我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T13:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。