論文の概要: 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding
- arxiv url: http://arxiv.org/abs/2406.09897v1
- Date: Fri, 14 Jun 2024 10:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 14:14:45.463418
- Title: 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding
- Title(参考訳): 3D-RPE:3次元回転位置符号化による長期モデリングの強化
- Authors: Xindian Ma, Wenyuan Liu, Peng Zhang, Nan Xu,
- Abstract要約: 3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
- 参考スコア(独自算出の注目度): 12.335958945925437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the Bloch Sphere representation, we propose a novel rotary position encoding on a three-dimensional sphere, named 3D Rotary Position Encoding (3D-RPE). 3D-RPE is an advanced version of the widely used 2D Rotary Position Encoding (RoPE), with two major advantages for modeling long contexts: controllable long-term decay and improved position resolution. For controllable long-term decay, 3D-RPE allows for the regulation of long-term decay within the chunk size, ensuring the modeling of relative positional information between tokens at a distant relative position. For enhanced position resolution, 3D-RPE can mitigate the degradation of position resolution caused by position interpolation on RoPE. We have conducted experiments on long-context Natural Language Understanding (NLU) and long-sequence Language Modeling (LM) tasks. From the experimental results, 3D-RPE achieved performance improvements over RoPE, especially in long-context NLU tasks.
- Abstract(参考訳): ブロッホ球表現に着想を得て、3次元回転位置符号化(3D-RPE)と呼ばれる3次元球面上での回転位置符号化を提案する。
3D-RPEは広く使われている2Dロータリー位置符号化(RoPE)の先進的なバージョンであり、長いコンテキストをモデル化する2つの大きな利点がある。
制御可能な長期減衰のために、3D-RPEはチャンクサイズ内での長期減衰の制御を可能にし、トークン間の相対的な位置情報のモデリングを遠くの相対的な位置で行う。
位置分解能を高めるため、3D-RPEはRoPE上の位置補間による位置分解能の劣化を軽減することができる。
我々は,NLU(Long-context Natural Language Understanding)とLM(Long-Sequence Language Modeling)タスクの実験を行った。
実験結果から、3D-RPEは、特に長文NLUタスクにおいて、RoPEよりも性能が向上した。
関連論文リスト
- HoPE: A Novel Positional Encoding Without Long-Term Decay for Enhanced Context Awareness and Extrapolation [19.42279057349193]
位置符号化(PE)は、長く続く帰納的意見に基づいて、長期的な腐敗を示すように設計されている。
我々は、LLMがコンテキスト内情報の正確な検索を要求するタスクに適用されるようになったため、LLMの時代において長期の崩壊は時代遅れであると主張している。
論文 参考訳(メタデータ) (2024-10-28T17:01:52Z) - SparseFusion: Efficient Sparse Multi-Modal Fusion Framework for Long-Range 3D Perception [47.000734648271006]
SparseFusionは,スパース3次元特徴を基盤として構築され,より効率的な長距離知覚を実現する新しい多モード融合フレームワークである。
提案したモジュールは,前景オブジェクトが存在可能なグリッドのみを埋める意味的側面と幾何学的側面の両方から疎結合を導入する。
長距離Argoverse2データセットでは、SparseFusionはメモリフットプリントを減らし、密度の高い検出器に比べて約2倍の速度で推論を高速化する。
論文 参考訳(メタデータ) (2024-03-15T05:59:10Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - MonoPGC: Monocular 3D Object Detection with Pixel Geometry Contexts [6.639648061168067]
我々は、リッチなPixel Geometry Contextsを備えた新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるMonoPGCを提案する。
我々は,局所的および大域的な深度幾何学的知識を視覚的特徴に注入するために,画素深度推定を補助タスクとして導入し,設計深度クロスアテンションピラミッドモジュール(DCPM)を設計する。
さらに,3次元空間位置と奥行き認識機能を効率よく統合するDSATを提案する。
論文 参考訳(メタデータ) (2023-02-21T09:21:58Z) - Focal-PETR: Embracing Foreground for Efficient Multi-Camera 3D Object
Detection [11.13693561702228]
支配的なマルチカメラ3D検出パラダイムは、明示的な3D特徴構造に基づいている。
他の方法では、画像トークンと3Dオブジェクトの関係を構築するために幾何学的位置符号化が暗黙的に導入されている。
本稿では,インスタンス誘導型監視モジュールと空間アライメントモジュールを備えたFocal-PETRを提案する。
論文 参考訳(メタデータ) (2022-12-11T13:38:54Z) - PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images [105.29493158036105]
PETRv2は、多視点画像からの3D知覚のための統一されたフレームワークである。
PETRの3次元位置埋め込みを時間的モデリングのために拡張する。
PETRv2は3Dオブジェクト検出とBEVセグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-02T19:13:03Z) - Pyramid R-CNN: Towards Better Performance and Adaptability for 3D Object
Detection [89.66162518035144]
点雲から2段階の3Dオブジェクトを検出するための柔軟で高性能なフレームワークであるPraamid R-CNNを提案する。
興味の疎い点から特徴を適応的に学習するために,ピラミッドRoIヘッドという新しい第2段モジュールを提案する。
我々のピラミッドRoIヘッドはスパースかつ不均衡な状況に対して堅牢であり、検出性能を継続的に向上するために様々な3Dバックボーンに適用することができる。
論文 参考訳(メタデータ) (2021-09-06T14:17:51Z) - Learning Anchored Unsigned Distance Functions with Gradient Direction
Alignment for Single-view Garment Reconstruction [92.23666036481399]
本稿では,1枚の画像から3次元衣料品を復元するための,学習可能なアンコレットアンサイン距離関数 (AnchorUDF) 表現を提案する。
AnchorUDFは符号のない距離場(UDF)を予測して3次元形状を表現し、任意の解像度でオープンな衣服表面モデリングを可能にする。
論文 参考訳(メタデータ) (2021-08-19T03:45:38Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection [62.34374949726333]
擬似LiDAR(PL)は、LiDARセンサに基づく手法と安価なステレオカメラに基づく手法の精度ギャップを劇的に減らした。
PLは最先端のディープニューラルネットワークと2D深度マップ出力を3Dポイントクラウド入力に変換することで3Dオブジェクト検出のための3D深度推定を組み合わせている。
我々は、PLパイプライン全体をエンドツーエンドにトレーニングできるように、差別化可能なRepresentation (CoR)モジュールに基づく新しいフレームワークを導入します。
論文 参考訳(メタデータ) (2020-04-07T02:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。