論文の概要: LieRE: Generalizing Rotary Position Encodings
- arxiv url: http://arxiv.org/abs/2406.10322v3
- Date: Tue, 18 Feb 2025 16:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:04:02.787928
- Title: LieRE: Generalizing Rotary Position Encodings
- Title(参考訳): LieRE:ロータリー位置エンコーディングの一般化
- Authors: Sophie Ostmeier, Brian Axelrod, Michael E. Moseley, Akshay Chaudhari, Curtis Langlotz,
- Abstract要約: Rotary Position (RoPE) は言語モデルにおいて一般的な選択肢となっている。
RoPEは1次元のシーケンスデータに制約される。
LieREは、RoPEのブロック2D回転行列を、可変空間の学習された高次元回転行列に置き換える。
- 参考スコア(独自算出の注目度): 4.07373334379699
- License:
- Abstract: Transformer architectures rely on position encodings to capture token dependencies. Rotary Position Encoding (RoPE) has emerged as a popular choice in language models due to its efficient encoding of relative position information through key-query rotations. However, RoPE faces significant limitations beyond language processing: it is constrained to one-dimensional sequence data and, even with learnable phases, offers limited representational capacity. We address these challenges with Lie Relative Encodings (LieRE), which replaces RoPE's block-2D rotation matrix with a learned, dense, high-dimensional rotation matrix of variable sparsity. Through extensive evaluation on three image datasets across 2D and 3D classification tasks, LieRE achieves 2\% relative improvement over state-of-the-art baselines on 2D tasks and 1.5\% on 3D tasks, while demonstrating superior generalization to higher resolutions. Our implementation is computationally efficient, with results reproducible on 4 A100 GPUs in 30 minutes on CIFAR100, and we release our code to facilitate further research.
- Abstract(参考訳): トランスフォーマーアーキテクチャはトークンの依存関係をキャプチャするために位置エンコーディングに依存している。
ロータリー位置符号化 (RoPE) は, キー・クエリ・ローテーションによる相対位置情報の効率的な符号化により, 言語モデルにおいて一般的な選択肢となっている。
しかし、RoPEは1次元のシーケンスデータに制約されており、学習可能なフェーズであっても、表現能力に制限がある。
これらの課題に対して,RoPEのブロック2次元回転行列を可変空間の学習された高次元回転行列に置き換えるLie Relative Encodings (LieRE) を提案する。
2Dタスクと3Dタスクにまたがる3つの画像データセットの広範囲な評価を通じて、LieREは2Dタスクの最先端ベースラインと3Dタスクの1.5倍の相対的な改善を実現し、高解像度に優れた一般化を示す。
我々の実装は計算効率が良く、4つのA100 GPU上で30分で再現できる。
関連論文リスト
- Learning the RoPEs: Better 2D and 3D Position Encodings with STRING [34.997879460336826]
STRING: 分離可能なトランスレーショナル不変位置 s。
STRING: Separable Translationally Invariant Position s。
論文 参考訳(メタデータ) (2025-02-04T18:37:17Z) - Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - Inferring 3D change detection from bitemporal optical images [6.050310428775564]
2次元と3次元のCDタスクを同時に解くことができる2つの新しいネットワークを提案する。
本研究の目的は,高度(3D)CDマップを自動的に推測できるDLアルゴリズムの開発基盤を構築することである。
コードと3DCDデータセットはurlhttps://sites.google.com/uniroma1.it/3dchangedetection/home-pageで公開されている。
論文 参考訳(メタデータ) (2022-05-31T15:53:33Z) - The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning
via Pose-aware Convolution [18.595285633151715]
我々はPose-Aware Rotation Invariant Convolution(PaRI-Conv)を開発する。
本稿では,相対的なポーズ情報を完全エンコードするAPPF(Augmented Point Pair Feature)と,ポーズ対応カーネル生成のための動的カーネルについて述べる。
私たちのPaRI-Convは、よりコンパクトで効率的でありながら最先端のRI手法を超越しています。
論文 参考訳(メタデータ) (2022-05-30T16:11:55Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。