論文の概要: Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.16416v1
- Date: Thu, 22 May 2025 09:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.175921
- Title: Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
- Title(参考訳): Circle-RoPE:大型ビジョンランゲージモデルのための円錐状非結合型回転位置埋め込み
- Authors: Chengcheng Wang, Jianyuan Guo, Hongguang Li, Yuchuan Tian, Ying Nie, Chang Xu, Kai Han,
- Abstract要約: ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
RoPEの変種はテキストトークンインデックスと画像トークン間の相対的な位置依存を強制し、急激なアライメントを引き起こす。
画像トークンインデックスを円軌道に写し、テキストトークンインデックスの直線経路にマッピングし、円錐状構造を形成する新しい符号化方式であるCircle-RoPEを導入する。
- 参考スコア(独自算出の注目度): 35.471513870514585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) is a widely adopted technique for encoding relative positional information in large language models (LLMs). However, when extended to large vision-language models (LVLMs), its variants introduce unintended cross-modal positional biases. Specifically, they enforce relative positional dependencies between text token indices and image tokens, causing spurious alignments. This issue arises because image tokens representing the same content but located at different spatial positions are assigned distinct positional biases, leading to inconsistent cross-modal associations. To address this, we propose Per-Token Distance (PTD) - a simple yet effective metric for quantifying the independence of positional encodings across modalities. Informed by this analysis, we introduce Circle-RoPE, a novel encoding scheme that maps image token indices onto a circular trajectory orthogonal to the linear path of text token indices, forming a cone-like structure. This configuration ensures that each text token maintains an equal distance to all image tokens, reducing artificial cross-modal biases while preserving intra-image spatial information. To further enhance performance, we propose a staggered layer strategy that applies different RoPE variants across layers. This design leverages the complementary strengths of each RoPE variant, thereby enhancing the model's overall performance. Our experimental results demonstrate that our method effectively preserves spatial information from images while reducing relative positional bias, offering a more robust and flexible positional encoding framework for LVLMs. The code is available at [https://github.com/lose4578/CircleRoPE](https://github.com/lose4578/CircleRoPE).
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)は、大規模言語モデル(LLM)において相対的な位置情報を符号化する手法として広く採用されている。
しかし、大きな視覚言語モデル(LVLM)に拡張されると、その変種は意図しないクロスモーダルな位置バイアスをもたらす。
具体的には、テキストトークンインデックスと画像トークンの間の相対的な位置依存を強制し、急激なアライメントを引き起こします。
この問題は、同じ内容を表すが異なる空間位置に位置する画像トークンが異なる位置バイアスに割り当てられており、矛盾するクロスモーダルな関連が生じるためである。
そこで本研究では,モーダル性にまたがる位置エンコーディングの独立性を定量化するための簡易かつ効果的な指標であるPTDを提案する。
そこで本研究では,Circle-RoPEを導入し,画像トークンインデックスをテキストトークンインデックスの直線経路に直交する円形軌跡にマッピングし,円錐状構造を形成する。
この構成により、各テキストトークンはすべての画像トークンと等距離を保つことができ、画像内の空間情報を保存しながら、人工的なクロスモーダルバイアスを低減できる。
性能をさらに向上するため,各層に異なる RoPE 変種を適用したステージング層戦略を提案する。
この設計は各RoPEの相補的な強度を活用し、モデル全体の性能を向上させる。
提案手法は相対的な位置バイアスを低減しつつ画像から空間情報を効果的に保存し,LVLMのより堅牢で柔軟な位置符号化フレームワークを提供する。
コードは[https://github.com/lose4578/CircleRoPE] (https://github.com/lose4578/CircleRoPE]で入手できる。
関連論文リスト
- PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - A 2D Semantic-Aware Position Encoding for Vision Transformers [32.86183384267028]
ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。
既存の位置符号化技術は、主に自然言語処理から借用されているが、画像パッチ間のセマンティック・アウェアな位置関係を効果的に捉えられなかった。
絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係(しばしば遠方でも文脈的に関連付けられたパッチ間の意味的類似性)に焦点を当てている。
論文 参考訳(メタデータ) (2025-05-14T15:17:34Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [13.495442349395287]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。