Fugu-MT 論文翻訳(概要): LieRE: Generalizing Rotary Position Encodings

論文の概要: LieRE: Generalizing Rotary Position Encodings

arxiv url: http://arxiv.org/abs/2406.10322v3
Date: Tue, 18 Feb 2025 16:52:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 15:46:50.218108
Title: LieRE: Generalizing Rotary Position Encodings
Title（参考訳）: LieRE:ロータリー位置エンコーディングの一般化
Authors: Sophie Ostmeier, Brian Axelrod, Michael E. Moseley, Akshay Chaudhari, Curtis Langlotz,
Abstract要約: Rotary Position (RoPE) は言語モデルにおいて一般的な選択肢となっている。 RoPEは1次元のシーケンスデータに制約される。 LieREは、RoPEのブロック2D回転行列を、可変空間の学習された高次元回転行列に置き換える。
参考スコア（独自算出の注目度）: 4.07373334379699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer architectures rely on position encodings to capture token dependencies. Rotary Position Encoding (RoPE) has emerged as a popular choice in language models due to its efficient encoding of relative position information through key-query rotations. However, RoPE faces significant limitations beyond language processing: it is constrained to one-dimensional sequence data and, even with learnable phases, offers limited representational capacity. We address these challenges with Lie Relative Encodings (LieRE), which replaces RoPE's block-2D rotation matrix with a learned, dense, high-dimensional rotation matrix of variable sparsity. Through extensive evaluation on three image datasets across 2D and 3D classification tasks, LieRE achieves 2\% relative improvement over state-of-the-art baselines on 2D tasks and 1.5\% on 3D tasks, while demonstrating superior generalization to higher resolutions. Our implementation is computationally efficient, with results reproducible on 4 A100 GPUs in 30 minutes on CIFAR100, and we release our code to facilitate further research.
Abstract（参考訳）: トランスフォーマーアーキテクチャはトークンの依存関係をキャプチャするために位置エンコーディングに依存している。ロータリー位置符号化 (RoPE) は, キー・クエリ・ローテーションによる相対位置情報の効率的な符号化により, 言語モデルにおいて一般的な選択肢となっている。しかし、RoPEは1次元のシーケンスデータに制約されており、学習可能なフェーズであっても、表現能力に制限がある。これらの課題に対して,RoPEのブロック2次元回転行列を可変空間の学習された高次元回転行列に置き換えるLie Relative Encodings (LieRE) を提案する。 2Dタスクと3Dタスクにまたがる3つの画像データセットの広範囲な評価を通じて、LieREは2Dタスクの最先端ベースラインと3Dタスクの1.5倍の相対的な改善を実現し、高解像度に優れた一般化を示す。我々の実装は計算効率が良く、4つのA100 GPU上で30分で再現できる。

関連論文リスト

3D-MoRe: Unified Modal-Contextual Reasoning for Embodied Question Answering [52.01655676571933]
3D-MoReは、基礎モデルの強みを活用して、大規模な3D言語データセットを生成するように設計されている。このフレームワークは、マルチモーダル埋め込み、クロスモーダルインタラクション、言語モデルデコーダなど、主要なコンポーネントを統合している。 ScanNetの3DシーンデータセットとScanQAとScanReferのテキストアノテーションを使用して、3D-MoReは62,000の質問応答ペアと73,000のオブジェクト記述を生成する。
論文参考訳（メタデータ） (2025-07-16T08:38:26Z)
ComRoPE: Scalable and Robust Rotary Position Embedding Parameterized by Trainable Commuting Angle Matrices [25.99231204405503]
トレーニング可能な通勤角行列で定義することで回転位置PE(RoPE)を一般化するComRoPEを提案する。我々は、RoPE方程式の十分な解として、トレーニング可能な通勤角行列を2種類提示する。我々のフレームワークは,既存の RoPE の定式化を一般化し,将来的な位置符号化研究のための新たな洞察を提供する。
論文参考訳（メタデータ） (2025-06-04T09:10:02Z)
PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2025-05-22T08:36:09Z)
SLAG: Scalable Language-Augmented Gaussian Splatting [19.643023058839603]
言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
論文参考訳（メタデータ） (2025-05-12T23:32:24Z)
A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-03-18T07:39:50Z)
Learning the RoPEs: Better 2D and 3D Position Encodings with STRING [34.997879460336826]
STRING: 分離可能なトランスレーショナル不変位置 s。 STRING: Separable Translationally Invariant Position s。
論文参考訳（メタデータ） (2025-02-04T18:37:17Z)
Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning [55.339257446600634]
大規模命令追従データに基づいて訓練された強力な3DLLMであるRobin3Dを紹介する。我々は,344K の逆数サンプル,508K の逆数サンプル,および165K のベンチマーク・トレーニング・セットからなる100万の命令追従データを構築した。 Robin3Dは、広く使用されている5つのマルチモーダル学習ベンチマークにおいて、従来方法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-09-30T21:55:38Z)
RTMW: Real-Time Multi-Person 2D and 3D Whole-body Pose Estimation [9.121372333621538]
全体ポーズ推定は、人体のきめ細かいポーズ情報を予測することを目的としている。本稿では,RTMW (Real-Time Multi-person Whole-body pose Estimation model) について述べる。
論文参考訳（メタデータ） (2024-07-11T16:15:47Z)
Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes [65.22070581594426]
Implicit-Zoo"は、この分野の研究と開発を容易にするために、数千のGPUトレーニング日を必要とする大規模なデータセットである。 1)トランスモデルのトークン位置を学習すること、(2)NeRFモデルに関して直接3Dカメラが2D画像のポーズを取ること、である。これにより、画像分類、セマンティックセグメンテーション、および3次元ポーズ回帰の3つのタスクすべてのパフォーマンスが向上し、研究のための新たな道が開けることになる。
論文参考訳（メタデータ） (2024-06-25T10:20:44Z)
3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。 3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文参考訳（メタデータ） (2024-06-14T10:13:37Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
RoScenes: A Large-scale Multi-view 3D Dataset for Roadside Perception [98.76525636842177]
RoScenesは、最大規模のマルチビューロードサイド認識データセットである。私たちのデータセットは、驚くべき21.13Mの3Dアノテーションを64,000$m2$で達成しています。
論文参考訳（メタデータ） (2024-05-16T08:06:52Z)
Rethinking 3D Dense Caption and Visual Grounding in A Unified Framework through Prompt-based Localization [51.33923845954759]
3Dビジュアルグラウンド(3DVG)と3Dキャプション(3DDC)は、様々な3Dアプリケーションにおいて2つの重要なタスクである。本稿では,これら2つの異なる,しかし密接に関連するタスクを協調的に解決する統合フレームワークである3DGCTRを提案する。実装面では、Lightweight Caption Headを既存の3DVGネットワークに統合し、Caption Text Promptを接続として使用する。
論文参考訳（メタデータ） (2024-04-17T04:46:27Z)
Rotary Position Embedding for Vision Transformer [44.27871591624888]
本研究では、視覚変換器(ViT)に適用した場合の回転位置埋め込み(RoPE)の包括的解析を提供する。 RoPEは印象的な補間性能、すなわち推論時の画像解像度を増大させながら精度を維持する。最終的にImageNet-1k、COCO検出、ADE-20kセグメンテーションのパフォーマンスが向上した。
論文参考訳（メタデータ） (2024-03-20T04:47:13Z)
NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文参考訳（メタデータ） (2023-09-26T02:09:52Z)
V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection [73.37781484123536]
DETRフレームワークを用いた点雲のための高性能な3次元物体検出器を提案する。限界に対処するため,新しい3次元相対位置(3DV-RPE)法を提案する。挑戦的なScanNetV2ベンチマークで例外的な結果を示す。
論文参考訳（メタデータ） (2023-08-08T17:14:14Z)
For SALE: State-Action Representation Learning for Deep Reinforcement Learning [60.42044715596703]
SALEは、状態と行動の間のニュアンスな相互作用をモデル化する埋め込みを学ぶための新しいアプローチである。我々は、SALEとRLのチェックポイントをTD3に統合し、TD7アルゴリズムを構成する。 OpenAIのジムのベンチマークタスクでは、TD7は平均276.7%、TD3よりも50.7%、それぞれ300k、500Mのタイムステップでパフォーマンスが向上している。
論文参考訳（メタデータ） (2023-06-04T19:47:46Z)
CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文参考訳（メタデータ） (2022-10-09T13:38:48Z)
The Devil is in the Pose: Ambiguity-free 3D Rotation-invariant Learning via Pose-aware Convolution [18.595285633151715]
我々はPose-Aware Rotation Invariant Convolution(PaRI-Conv)を開発する。本稿では,相対的なポーズ情報を完全エンコードするAPPF(Augmented Point Pair Feature)と,ポーズ対応カーネル生成のための動的カーネルについて述べる。私たちのPaRI-Convは、よりコンパクトで効率的でありながら最先端のRI手法を超越しています。
論文参考訳（メタデータ） (2022-05-30T16:11:55Z)
Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文参考訳（メタデータ） (2022-04-06T17:54:46Z)
Rethinking and Improving Relative Position Encoding for Vision Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文参考訳（メタデータ） (2021-07-29T17:55:10Z)
Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文参考訳（メタデータ） (2020-08-26T12:24:23Z)
Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound [59.97366727654676]
3D超音波(US)はその豊富な診断情報、可搬性、低コストのために広く用いられている。米国における標準平面(SP)のローカライゼーションは,効率の向上とユーザ依存の低減だけでなく,米国における3D解釈の促進にも寄与する。本稿では,複数の子宮SPを同時に3D USにローカライズするマルチエージェント強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-30T07:23:55Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。