論文の概要: Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding
- arxiv url: http://arxiv.org/abs/2106.02795v1
- Date: Sat, 5 Jun 2021 04:40:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:47:52.315937
- Title: Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding
- Title(参考訳): 多次元空間位置符号化のための学習可能なフーリエ特徴
- Authors: Yang Li, Si Si, Gang Li, Cho-Jui Hsieh, Samy Bengio
- Abstract要約: 本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 96.9752763607738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attentional mechanisms are order-invariant. Positional encoding is a crucial
component to allow attention-based deep model architectures such as Transformer
to address sequences or images where the position of information matters. In
this paper, we propose a novel positional encoding method based on learnable
Fourier features. Instead of hard-coding each position as a token or a vector,
we represent each position, which can be multi-dimensional, as a trainable
encoding based on learnable Fourier feature mapping, modulated with a
multi-layer perceptron. The representation is particularly advantageous for a
spatial multi-dimensional position, e.g., pixel positions on an image, where
$L_2$ distances or more complex positional relationships need to be captured.
Our experiments based on several public benchmark tasks show that our learnable
Fourier feature representation for multi-dimensional positional encoding
outperforms existing methods by both improving the accuracy and allowing faster
convergence.
- Abstract(参考訳): 注意機構は順序不変である。
位置符号化は、トランスフォーマーのような注意に基づく深層モデルアーキテクチャが、情報の位置が重要なシーケンスや画像に対処するために重要なコンポーネントである。
本稿では,学習可能なフーリエ特徴に基づく新しい位置符号化手法を提案する。
トークンやベクトルとして各位置をハードコーディングするのではなく,多層パーセプトロンで変調した学習可能なフーリエ特徴写像に基づく訓練可能な符号化として,多次元のそれぞれの位置を表す。
この表現は、例えば画像上のピクセル位置のような空間的多次元位置に対して特に有利であり、$L_2$距離やより複雑な位置関係をキャプチャする必要がある。
複数のベンチマークタスクに基づく実験により,多次元位置符号化におけるフーリエ特徴表現は,精度の向上と収束の高速化により,既存の手法よりも優れていることが示された。
関連論文リスト
- Improving Transformers using Faithful Positional Encoding [55.30212768657544]
本稿では,Transformerと呼ばれるニューラルネットワークアーキテクチャのための新しい位置符号化手法を提案する。
標準的な正弦波位置符号化とは違って,本手法では入力シーケンスの位置次数に関する情報が失われないようにしている。
論文 参考訳(メタデータ) (2024-05-15T03:17:30Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Coordinate Quantized Neural Implicit Representations for Multi-view
Reconstruction [28.910183274743872]
量子化座標を用いたニューラル暗黙表現を導入し、最適化時のフィールドの不確かさとあいまいさを低減する。
我々は離散座標とその位置符号化を用いてボリュームレンダリングを通して暗黙の関数を学習する。
広く使用されているベンチマークによる評価は、最先端技術よりも優位性を示している。
論文 参考訳(メタデータ) (2023-08-21T20:27:33Z) - Trading Positional Complexity vs. Deepness in Coordinate Networks [33.90893096003318]
代替の非フーリエ埋め込み関数が実際に位置符号化に利用できることを示す。
それらの性能は、組込み行列の安定ランクと組込み座標間の距離保存の間のトレードオフによって決定される。
我々は、より複雑な位置符号化 -- モードの数と指数関数的にスケールする -- を利用することは、同等のパフォーマンスを達成するために線形(ディープではなく)座標関数のみを必要とすると論じる。
論文 参考訳(メタデータ) (2022-05-18T15:17:09Z) - PINs: Progressive Implicit Networks for Multi-Scale Neural
Representations [68.73195473089324]
周波数符号化のインクリメンタルな集合に階層構造を露出するプログレッシブな位置符号化を提案する。
本モデルでは,広帯域のシーンを正確に再構成し,プログレッシブなディテールでシーン表現を学習する。
いくつかの2次元および3次元データセットの実験では、ベースラインと比較して、再構築精度、表現能力、トレーニング速度が改善されている。
論文 参考訳(メタデータ) (2022-02-09T20:33:37Z) - Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning [8.944233327731245]
本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-10-01T11:57:50Z) - Rethinking Positional Encoding [31.80055086317266]
代替の非フーリエ埋め込み関数が実際に位置符号化に利用できることを示す。
組込み行列の安定ランクと組込み座標間の距離保存とのトレードオフによって,それらの性能が完全に決定されることを示す。
シフト基底関数の観点から位置符号化を解析するためのより一般的な理論を提案する。
論文 参考訳(メタデータ) (2021-07-06T12:04:04Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Modulated Periodic Activations for Generalizable Local Functional
Representations [113.64179351957888]
我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。
提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:04Z) - Attention-Based Multimodal Image Matching [16.335191345543063]
本稿では,Transformerエンコーダを用いたマルチモーダル画像パッチマッチングのためのアテンションベースアプローチを提案する。
このエンコーダは,タスク固有の外見不変のイメージキューを強調しつつ,マルチスケールな画像埋め込みを効率的に集約する。
これはTransformerエンコーダアーキテクチャをマルチモーダル画像パッチマッチングタスクに実装した最初の成功例である。
論文 参考訳(メタデータ) (2021-03-20T21:14:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。