論文の概要: CRoPE: Efficient Parametrization of Rotary Positional Embedding
- arxiv url: http://arxiv.org/abs/2601.02728v1
- Date: Tue, 06 Jan 2026 05:46:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.812785
- Title: CRoPE: Efficient Parametrization of Rotary Positional Embedding
- Title(参考訳): CRoPE: ロータリー・ポジショナル・エンベディングの効率的なパラメトリゼーション
- Authors: Beicheng Lou, Zifei Xu,
- Abstract要約: 複素線型変換はより自然なパラメトリゼーションであり、注意ブロック内の約50%のパラメータを節約する。
我々の修正は、より効率的なパラメータの使用と表現空間のよりクリーンな解釈を実現する。
- 参考スコア(独自算出の注目度): 0.07366405857677225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rotary positional embedding has become the state-of-the-art approach to encode position information in transformer-based models. While it is often succinctly expressed in complex linear algebra, we note that the actual implementation of $Q/K/V$-projections is not equivalent to a complex linear transformation. We argue that complex linear transformation is a more natural parametrization and saves near 50\% parameters within the attention block. We show empirically that removing such redundancy has negligible impact on the model performance both in sample and out of sample. Our modification achieves more efficient parameter usage, as well as a cleaner interpretation of the representation space.
- Abstract(参考訳): 回転位置埋め込みは変圧器モデルにおける位置情報を符号化する最先端の手法となっている。
複素線型代数で簡潔に表されることが多いが、$Q/K/V$-射影の実際の実装は複素線型変換と等価ではないことに注意する。
複素線型変換はより自然なパラメトリゼーションであり、注意ブロック内のパラメータの約50\%を節約する。
このような冗長性を取り除くことは,サンプル内およびサンプル外の両方でモデル性能にほとんど影響を与えないことを実証的に示す。
我々の修正は、より効率的なパラメータの使用と表現空間のよりクリーンな解釈を実現する。
関連論文リスト
- On the Duality between Gradient Transformations and Adapters [42.29393106429133]
線形変換を用いたニューラルネットワークのメモリ効率最適化について検討する。
勾配は全パラメータ空間よりも低次元空間に線型にマッピングされる。
この双対性は、メモリ効率のトレーニングに対する既存のアプローチを統一し、トレーニング効率とメモリ使用量を改善するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-19T15:26:18Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Scaling Efficient LLMs [0.0]
変圧器の「AIスケーリング法則」は、パラメータの数はデータのサイズと線形にスケールする必要があることを示唆している。
本稿では,リカレント変圧器と再カレントネットワークの有効性を組み合わせた再カレント変圧器を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:06:19Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Structuring Representation Geometry with Rotationally Equivariant
Contrastive Learning [42.20218717636608]
自己教師付き学習は、画像などの生の知覚データを、単純なユークリッド距離が有意義なデータの変動を測定するようなコンパクトな空間に変換する。
この定式化は、埋め込み空間の単純な変換に対応するように入力空間の変換を強制することにより、埋め込み空間に追加の幾何学的構造を加えることによって拡張する。
我々は、同変損失と非崩壊項を単に組み合わせれば、非自明な表現が得られることを示す。
論文 参考訳(メタデータ) (2023-06-24T10:07:52Z) - RegFormer: An Efficient Projection-Aware Transformer Network for
Large-Scale Point Cloud Registration [73.69415797389195]
本稿では,大規模クラウドアライメントのためのエンドツーエンドトランス (RegFormer) ネットワークを提案する。
具体的には、プロジェクション対応階層変換器を提案し、長距離依存を捕捉し、外乱をフィルタする。
我々の変圧器は線形複雑であり、大規模シーンでも高い効率が保証される。
論文 参考訳(メタデータ) (2023-03-22T08:47:37Z) - Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。
RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。
本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文 参考訳(メタデータ) (2021-05-18T09:52:32Z) - Sample-Efficient Reinforcement Learning Is Feasible for Linearly
Realizable MDPs with Limited Revisiting [60.98700344526674]
線形関数表現のような低複雑度モデルがサンプル効率のよい強化学習を可能にする上で重要な役割を果たしている。
本稿では,オンライン/探索的な方法でサンプルを描画するが,制御不能な方法で以前の状態をバックトラックし,再訪することができる新しいサンプリングプロトコルについて検討する。
この設定に合わせたアルゴリズムを開発し、特徴次元、地平線、逆の準最適ギャップと実際にスケールするサンプル複雑性を実現するが、状態/作用空間のサイズではない。
論文 参考訳(メタデータ) (2021-05-17T17:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。