論文の概要: Wavelet-based Positional Representation for Long Context
- arxiv url: http://arxiv.org/abs/2502.02004v1
- Date: Tue, 04 Feb 2025 04:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:11.382123
- Title: Wavelet-based Positional Representation for Long Context
- Title(参考訳): ウェーブレットに基づく長期文脈のための位置表現
- Authors: Yui Oka, Taku Hasegawa, Kyosuke Nishida, Kuniko Saito,
- Abstract要約: 長い文脈における従来の位置符号化手法を解析する。
ウェーブレット変換を利用して複数のスケール(ウィンドウサイズ)をキャプチャする新しい位置表現法を提案する。
実験結果から,本手法は短所と長所の両方でモデルの性能を向上させることが示された。
- 参考スコア(独自算出の注目度): 14.902305283428642
- License:
- Abstract: In the realm of large-scale language models, a significant challenge arises when extrapolating sequences beyond the maximum allowable length. This is because the model's position embedding mechanisms are limited to positions encountered during training, thus preventing effective representation of positions in longer sequences. We analyzed conventional position encoding methods for long contexts and found the following characteristics. (1) When the representation dimension is regarded as the time axis, Rotary Position Embedding (RoPE) can be interpreted as a restricted wavelet transform using Haar-like wavelets. However, because it uses only a fixed scale parameter, it does not fully exploit the advantages of wavelet transforms, which capture the fine movements of non-stationary signals using multiple scales (window sizes). This limitation could explain why RoPE performs poorly in extrapolation. (2) Previous research as well as our own analysis indicates that Attention with Linear Biases (ALiBi) functions similarly to windowed attention, using windows of varying sizes. However, it has limitations in capturing deep dependencies because it restricts the receptive field of the model. From these insights, we propose a new position representation method that captures multiple scales (i.e., window sizes) by leveraging wavelet transforms without limiting the model's attention field. Experimental results show that this new method improves the performance of the model in both short and long contexts. In particular, our method allows extrapolation of position information without limiting the model's attention field.
- Abstract(参考訳): 大規模言語モデルの領域では、最大許容長を超える配列を外挿する場合に重大な課題が発生する。
これは、モデルの位置埋め込み機構がトレーニング中に遭遇する位置に限定されているため、より長いシーケンスにおける位置の効果的な表現が防止されるためである。
従来の位置符号化手法を長い文脈で解析し,以下の特徴を見出した。
1) 表現次元を時間軸と見なす場合, ロータリー位置埋め込み(RoPE)をハール状ウェーブレットを用いた制限ウェーブレット変換と解釈できる。
しかし、固定スケールパラメータのみを使用するため、複数のスケール(ウィンドウサイズ)を用いて非定常信号の微細な動きを捉えるウェーブレット変換の利点を十分に活用していない。
この制限は、RoPEの外挿性能が低かった理由を説明できる。
2) 従来の研究では, 異なる大きさの窓を用いて, 窓面に類似したアテンション機能を有するリニアバイアス (ALiBi) について検討した。
しかしながら、モデルの受容的フィールドを制限するため、深い依存関係をキャプチャする際の制限がある。
これらの知見から,モデルの注意領域を制限することなくウェーブレット変換を利用して複数のスケール(ウィンドウサイズ)をキャプチャする新しい位置表現法を提案する。
実験結果から,本手法は短所と長所の両方でモデルの性能を向上させることが示された。
特に,本手法は,モデルの注意領域を制限することなく,位置情報の外挿を可能にする。
関連論文リスト
- Utilizing Image Transforms and Diffusion Models for Generative Modeling of Short and Long Time Series [7.201938834736084]
可変長時系列の統一生成モデルを提案する。
遅延埋め込みや短時間フーリエ変換などの可逆変換を用いる。
提案手法は,強いベースラインに対して常に最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-25T13:06:18Z) - Boundary-Recovering Network for Temporal Action Detection [20.517156879086535]
時間的行動の大規模変動は、時間的行動検出(TAD)における最も大きな問題の1つである
消滅する境界問題に対処するために,境界回復ネットワーク(BRN)を提案する。
BRNは、マルチスケール特徴を同じ時間長に補間することにより、スケールディメンションと呼ばれる新しい軸を導入することで、スケールタイム特徴を構築する。
論文 参考訳(メタデータ) (2024-08-18T04:34:49Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Dynamically Modulating Visual Place Recognition Sequence Length For Minimum Acceptable Performance Scenarios [17.183024395686505]
単一画像の視覚的位置認識(VPR)は、ローカライゼーションの代替となるが、ロバスト性を改善するためにシーケンスマッチングのような技術を必要とすることが多い。
本稿では,データキャリブレーションを用いて,VPRの配列長を目標のローカライゼーション性能を超えるようなモデルに適合させる手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T00:16:35Z) - Mitigate Position Bias in Large Language Models via Scaling a Single Dimension [47.792435921037274]
本稿ではまず,位置バイアスのマイクロレベル表現について考察し,注目重みが位置バイアスのマイクロレベル表現であることを示す。
さらに、位置埋め込みに加えて、因果注意マスクは位置特異的な隠れ状態を作成することによって位置バイアスに寄与する。
これらの知見に基づいて,この位置隠れ状態のスケーリングにより位置バイアスを軽減する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T17:55:38Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Dissecting Transformer Length Extrapolation via the Lens of Receptive
Field Analysis [72.71398034617607]
我々は、相対的な位置埋め込み設計であるALiBiを受容場解析のレンズで識別する。
バニラ正弦波位置埋め込みを修正してbftextを作成する。これはパラメータフリーな相対的位置埋め込み設計であり、真の長さ情報はトレーニングシーケンスよりも長くなる。
論文 参考訳(メタデータ) (2022-12-20T15:40:17Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - FFD: Fast Feature Detector [22.51804239092462]
特定のスケール空間領域にロバストで正確なキーポイントが存在することを示す。
スケールスペースピラミッドの滑らか度比とぼかしをそれぞれ2と0.627に設定することで、信頼性の高いキーポイントの検出が容易であることが証明された。
論文 参考訳(メタデータ) (2020-12-01T21:56:35Z) - NiLBS: Neural Inverse Linear Blend Skinning [59.22647012489496]
本稿では, 従来のスキン加工技術を用いて, ポーズによってパラメータ化されたニューラルネットワークを用いて変形を反転させる手法を提案する。
これらの変形を逆転する能力は、例えば距離関数、符号付き距離関数、占有率)の値を静止ポーズで事前計算し、文字が変形したときに効率的にクエリすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。