論文の概要: GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework
- arxiv url: http://arxiv.org/abs/2406.07049v2
- Date: Sat, 14 Sep 2024 11:35:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 01:55:54.508443
- Title: GridPE: Unifying Positional Encoding in Transformers with a Grid Cell-Inspired Framework
- Title(参考訳): GridPE: グリッドセルにインスパイアされたフレームワークでトランスフォーマーの位置エンコーディングを統合する
- Authors: Boyang Li, Yulin Wu, Nuoxian Huang, Wenjia Zhang,
- Abstract要約: 本稿では,フーリエ解析にインスパイアされた新しい位置符号化手法とグリッドセルに関する計算神経科学の最新知見を紹介する。
生物効率の原理に基づく空間多次元空間に対する最適グリッドスケール比を導出する。
我々の理論解析は、GridPEが任意の高次元空間における位置符号化のための統一的なフレームワークを提供することを示している。
- 参考スコア(独自算出の注目度): 6.192516215592685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding spatial location and relationships is a fundamental capability for modern artificial intelligence systems. Insights from human spatial cognition provide valuable guidance in this domain. Neuroscientific discoveries have highlighted the role of grid cells as a fundamental neural component for spatial representation, including distance computation, path integration, and scale discernment. In this paper, we introduce a novel positional encoding scheme inspired by Fourier analysis and the latest findings in computational neuroscience regarding grid cells. Assuming that grid cells encode spatial position through a summation of Fourier basis functions, we demonstrate the translational invariance of the grid representation during inner product calculations. Additionally, we derive an optimal grid scale ratio for multi-dimensional Euclidean spaces based on principles of biological efficiency. Utilizing these computational principles, we have developed a Grid-cell inspired Positional Encoding technique, termed GridPE, for encoding locations within high-dimensional spaces. We integrated GridPE into the Pyramid Vision Transformer architecture. Our theoretical analysis shows that GridPE provides a unifying framework for positional encoding in arbitrary high-dimensional spaces. Experimental results demonstrate that GridPE significantly enhances the performance of transformers, underscoring the importance of incorporating neuroscientific insights into the design of artificial intelligence systems.
- Abstract(参考訳): 空間的位置と関係を理解することは、現代の人工知能システムの基本的能力である。
人間の空間認知からの洞察は、この領域で貴重なガイダンスを提供する。
神経科学的な発見は、距離計算、経路積分、スケール識別を含む空間表現の基本的な神経成分としてのグリッド細胞の役割を強調している。
本稿では,フーリエ解析にインスパイアされた新しい位置符号化方式とグリッドセルに関する計算神経科学の最新知見を紹介する。
格子セルがフーリエ基底関数の和を通じて空間位置を符号化すると仮定すると、内部積計算における格子表現の変換不変性を示す。
さらに,生物効率の原理に基づく多次元ユークリッド空間に対する最適グリッドスケール比を導出する。
これらの計算原理を利用して、高次元空間内の位置を符号化するための、グリッドセルにインスパイアされた位置エンコーディング技術、GridPEを開発した。
GridPEをPraamid Vision Transformerアーキテクチャに統合しました。
我々の理論解析は、GridPEが任意の高次元空間における位置符号化のための統一的なフレームワークを提供することを示している。
実験により、GridPEはトランスフォーマーの性能を著しく向上させ、人工知能システムの設計に神経科学的な洞察を取り入れることの重要性を強調した。
関連論文リスト
- Attending to Topological Spaces: The Cellular Transformer [37.84207797241944]
トポロジカルディープラーニングは、入力データにトポロジ的構造を活用することにより、ニューラルネットワークモデルの予測性能を高めることを目指している。
本稿では,グラフベースのトランスをセルコンプレックスに一般化する新しいアーキテクチャであるCellular Transformer(CT)を紹介する。
CTは最先端のパフォーマンスを実現するが、より複雑な拡張を必要としない。
論文 参考訳(メタデータ) (2024-05-23T01:48:32Z) - HyPE-GT: where Graph Transformers meet Hyperbolic Positional Encodings [19.78896931593813]
学習可能な位置エンコーディングをトランスフォーマーに導入する,革新的で効率的なフレームワークを提案する。
このアプローチにより、特定の下流タスクに対して最適なPE選択のための多様な選択肢を探索することが可能になる。
深部グラフニューラルネットワーク(GNN)における過平滑化の影響を軽減するため、これらの位置符号化を再利用する。
論文 参考訳(メタデータ) (2023-12-11T18:00:27Z) - Self-Supervised Learning of Representations for Space Generates
Multi-Modular Grid Cells [16.208253624969142]
哺乳類の系統は 顕著な空間表現を発達させました
重要な空間表現の一つがノーベル賞受賞格子細胞である。
ノーベル賞受賞時のグリッド細胞は、自己位置、局所的および周期的な量を表す。
論文 参考訳(メタデータ) (2023-11-04T03:59:37Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - DAGrid: Directed Accumulator Grid [13.188564605481544]
ニューラルネットワークにおける幾何保存フィルタを可能にするDAGrid(Directed Accumulator Grid)を提案する。
DAGridはネットワークパラメータサイズを70.8%削減し、FLOPを96.8%削減した。
また、左室質量の平均DiceスコアとDiceスコアの4.4%と8.2%の改善も達成している。
論文 参考訳(メタデータ) (2023-06-05T04:33:32Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Graph Neural Networks with Learnable Structural and Positional
Representations [83.24058411666483]
任意のグラフの大きな問題は、ノードの標準位置情報の欠如である。
ノードの位置ノード(PE)を導入し、Transformerのように入力層に注入する。
両方のGNNクラスで学習可能なPEを考えると、分子データセットのパフォーマンスは2.87%から64.14%に向上する。
論文 参考訳(メタデータ) (2021-10-15T05:59:15Z) - Learnable Fourier Features for Multi-DimensionalSpatial Positional
Encoding [96.9752763607738]
本稿では,学習可能なフーリエ特徴に基づく位置符号化手法を提案する。
本研究では,多次元位置符号化のための学習可能な特徴表現が既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:40:18Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Grid Cells Are Ubiquitous in Neural Networks [0.0]
格子細胞は空間的および非空間的認知タスクにおいて重要な役割を果たしていると考えられている。
最近の研究では、LSTMの経路積分のための格子細胞の出現が観察されている。
論文 参考訳(メタデータ) (2020-03-07T01:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。