論文の概要: LieRE: Lie Rotational Positional Encodings
- arxiv url: http://arxiv.org/abs/2406.10322v5
- Date: Sat, 16 Aug 2025 06:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.634161
- Title: LieRE: Lie Rotational Positional Encodings
- Title(参考訳): LieRE: Lie Rotational Positional Encodings
- Authors: Sophie Ostmeier, Brian Axelrod, Maya Varma, Michael E. Moseley, Akshay Chaudhari, Curtis Langlotz,
- Abstract要約: トランスフォーマーアーキテクチャは入力データの構造をモデル化するために位置符号化に依存している。
変換器における位置符号化の表現能力を高めるために、リー相対代数(LieRE)を導入する。
2次元および3次元視覚タスクにおけるLieREの有効性を示す。
- 参考スコア(独自算出の注目度): 5.32707456872718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures rely on position encodings to model the spatial structure of input data. Rotary Position Encoding (RoPE) is a widely used method in language models that encodes relative positions through fixed, block-diagonal, rotation matrices applied to key-query interactions. We hypothesize that this inductive bias limits their RoPE's effectiveness for modalities with high dimensional structure. Lie Relative Encodings (LieRE) introduce a principled generalization of RoPE, aimed at increasing the representational capacity of positional encodings in transformers. Instead of fixed 2D rotations, LieRE learns dense skew-symmetric matrices (Lie algebra elements), which are then differentiable mapped to form high-dimensional rotation matrices (Lie group elements). This results in richer, learnable, and continuous, encodings of both relative and absolute positional information. We demonstrate the effectiveness of LieRE on 2D and 3D vision tasks, showing that it generalizes well to higher input resolutions while maintaining computational efficiency. The code and checkpoints are publicly available at https://github.com/StanfordMIMI/LieRE.
- Abstract(参考訳): トランスフォーマーアーキテクチャは入力データの空間構造をモデル化するために位置符号化に依存する。
ロータリー位置符号化(Rotary Position Encoding, RoPE)は、キー-クエリ相互作用に適用される固定、ブロック-対角、回転行列を通じて相対位置を符号化する言語モデルにおいて広く用いられる手法である。
この帰納バイアスは、高次元構造を持つモダリティに対するRoPEの有効性を制限していると仮定する。
Lie Relative Encodings (LieRE)は、トランスフォーマーにおける位置符号化の表現能力を高めることを目的とした、RoPEの原理的な一般化を導入する。
固定された2次元回転の代わりに、リーリーは密度の高いスキュー対称行列(リー代数要素)を学習し、高次元回転行列(リー群要素)を形成するように微分可能写像される。
これにより、相対的な位置情報と絶対的な位置情報のエンコーディングが、より豊かで、学習可能で、連続的に行われる。
2次元および3次元視覚タスクにおけるLieREの有効性を実証し、計算効率を保ちながら高い入力解像度に最適化できることを示した。
コードとチェックポイントはhttps://github.com/StanfordMIMI/LieRE.comで公開されている。
関連論文リスト
- 3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering [52.01655676571933]
3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。
このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。
ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
論文 参考訳(メタデータ) (2025-07-16T08:38:26Z) - ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。
我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。
我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-06-04T09:10:02Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - SLAG: Scalable Language-Augmented Gaussian Splatting [19.643023058839603]
言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。
これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。
言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
論文 参考訳(メタデータ) (2025-05-12T23:32:24Z) - A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。
その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-18T07:39:50Z) - Learning the RoPEs: Better 2D and 3D Position Encodings with STRING [34.997879460336826]
STRING: 分離可能なトランスレーショナル不変位置 s。
STRING: Separable Translationally Invariant Position s。
論文 参考訳(メタデータ) (2025-02-04T18:37:17Z) - Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。
我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。
Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-09-30T21:55:38Z) - RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation [9.121372333621538]
全体ポーズ推定は、人体のきめ細かいポーズ情報を予測することを目的としている。
本稿では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。
論文 参考訳(メタデータ) (2024-07-11T16:15:47Z) - Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。
1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。
これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文 参考訳(メタデータ) (2024-06-25T10:20:44Z) - 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。
私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文 参考訳(メタデータ) (2024-05-16T08:06:52Z) - Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。
本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。
実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文 参考訳(メタデータ) (2024-04-17T04:46:27Z) - Rotary Position Embedding for Vision Transformer [44.27871591624888]
本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。
RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。
最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-03-20T04:47:13Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - V-DETR: DETR with Vertex Relative Position Encoding for 3D Object
Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。
限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。
挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文 参考訳(メタデータ) (2023-08-08T17:14:14Z) - For SALE: State-Action Representation Learning for Deep Reinforcement
Learning [60.42044715596703]
SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。
我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。
OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-06-04T19:47:46Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning
via Pose-aware Convolution [18.595285633151715]
我々はPose-Aware Rotation Invariant Convolution(PaRI-Conv)を開発する。
本稿では,相対的なポーズ情報を完全エンコードするAPPF(Augmented Point Pair Feature)と,ポーズ対応カーネル生成のための動的カーネルについて述べる。
私たちのPaRI-Convは、よりコンパクトで効率的でありながら最先端のRI手法を超越しています。
論文 参考訳(メタデータ) (2022-05-30T16:11:55Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - Searching Collaborative Agents for Multi-plane Localization in 3D
Ultrasound [59.97366727654676]
3D超音波(US)はその豊富な診断情報、可搬性、低コストのために広く用いられている。
米国における標準平面(SP)のローカライゼーションは,効率の向上とユーザ依存の低減だけでなく,米国における3D解釈の促進にも寄与する。
本稿では,複数の子宮SPを同時に3D USにローカライズするマルチエージェント強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-30T07:23:55Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。