論文の概要: Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.16416v2
- Date: Sat, 04 Oct 2025 09:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.865971
- Title: Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
- Title(参考訳): Circle-RoPE:大型ビジョンランゲージモデルのための円錐状非結合型回転位置埋め込み
- Authors: Chengcheng Wang, Jianyuan Guo, Hongguang Li, Yuchuan Tian, Ying Nie, Chang Xu, Kai Han,
- Abstract要約: ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
視覚言語モデル(VLM)に拡張されると、RoPEとその変種はテキストと画像トークンの間で相対的な位置依存を強制する。
本稿では,スパイラルなクロスモーダルバイアスを除去する新しい符号化方式であるCircle-RoPEを紹介する。
- 参考スコア(独自算出の注目度): 49.122200327049676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rotary Position Embedding (RoPE) is a widely adopted technique for encoding relative positional information in large language models (LLMs). However, when extended to vision-language models (VLMs), RoPE and its variants enforce relative positional dependencies separately within text and image tokens, introducing unintended cross-modal positional biases. For example, image tokens depicting semantically consistent content are assigned distinct positional encodings solely due to spatial location variations. As a result, such tokens exhibit entirely different relative positional relationships with their corresponding text tokens, ultimately leading to misaligned cross-modal representations. To address this, we propose Per-Token Distance, a simple yet effective metric for quantifying the independence of positional encodings across modalities. Informed by this analysis, we introduce Circle-RoPE, a novel encoding scheme designed to eliminate spurious cross-modal biases. Our key idea is to project image token indices onto a \emph{ring} that is orthogonal to the linear axis of text token indices, thereby forming a cone-like structure in the positional encoding space. In this configuration, each text token (point on the linear text axis) becomes the apex of a cone and maintains an equal distance to all image tokens (points on the circular image \emph{ring}), reducing artificial cross-modal biases while preserving intra-image spatial information. To further enhance performance, we propose a staggered strategy that applies different RoPE variants across layers. Extensive experiments demonstrate that our method effectively preserves spatial information from images while reducing relative positional bias, offering a more robust and flexible positional encoding framework for VLMs. The code is available at https://github.com/lose4578/CircleRoPE.
- Abstract(参考訳): ロータリー位置埋め込み(RoPE)は、大規模言語モデル(LLM)において相対的な位置情報を符号化する手法として広く採用されている。
しかし、視覚言語モデル(VLM)に拡張されると、RoPEとその変種はテキストと画像トークンの間で相対的な位置依存を強制し、意図しないクロスモーダルな位置バイアスを導入する。
例えば、意味的に一貫した内容を描いた画像トークンは、空間的位置変化によってのみ異なる位置符号化が割り当てられる。
その結果、これらのトークンは対応するテキストトークンと全く異なる相対的な位置関係を示し、最終的に不一致なクロスモーダル表現をもたらす。
そこで本稿では,モーダル間の位置エンコーディングの独立性を定量化するための簡易かつ効果的な指標であるPer-Token Distanceを提案する。
この解析によって得られたCircle-RoPEは、スパイラルなクロスモーダルバイアスを除去する新しい符号化方式である。
我々のキーとなるアイデアは、画像トークンインデックスをテキストトークンインデックスの線形軸に直交する \emph{ring} に投影することで、位置符号化空間にコーンのような構造を形成することである。
この構成では、各テキストトークン(線状テキスト軸上の点)がコーンの頂点となり、すべての画像トークン(円形画像上の点)と等距離を維持し、画像内空間情報を保存しつつ、人工的な相互偏差を低減させる。
性能をさらに向上するため,各層に異なる RoPE 変種を適用したスタッガー型戦略を提案する。
広汎な実験により,本手法は相対的な位置バイアスを低減しつつ画像から空間情報を効果的に保存し,VLMのより堅牢で柔軟な位置符号化フレームワークを提供する。
コードはhttps://github.com/lose4578/CircleRoPEで公開されている。
関連論文リスト
- MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models [25.406556604989607]
幻覚はLVLM(Large Vision Language Models)において重要な課題となる
重要な要因として特定されたマルチモーダル特徴の不一致。
MCA-LLaVAは位置モデリングのための画像トークンの1次元配列順序と2次元空間位置を統合する。
論文 参考訳(メタデータ) (2025-07-12T08:09:35Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition [16.46501527058266]
双曲空間における新しい階層的埋め込みフレームワークであるHypeVPRを紹介する。
HypeVPRは、P2E(point-to-equirectangular VPR)の独特な課題に対処するために設計された。
論文 参考訳(メタデータ) (2025-06-05T08:47:15Z) - ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models [24.087014423545067]
VLM(Vision-Language Models)の性能向上のための一般的なアプローチは、高解像度バージョンと画像のサムネイルの両方を同時に符号化することである。
位置 ID を並べ替えることでこれらの問題を緩和する ID-Align を提案する。
LLaVA-Nextフレームワークで実施した実験では,ID-Alignが大幅に改善された。
論文 参考訳(メタデータ) (2025-05-27T17:36:23Z) - PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - A 2D Semantic-Aware Position Encoding for Vision Transformers [32.86183384267028]
ビジョントランスフォーマーは、コンピュータビジョンタスクにおいて、長距離依存と自己注意を通してコンテキスト関係をキャプチャする能力により、大きな利点を示してきた。
既存の位置符号化技術は、主に自然言語処理から借用されているが、画像パッチ間のセマンティック・アウェアな位置関係を効果的に捉えられなかった。
絶対位置符号化(英語版)や相対位置符号化(英語版)のような伝統的なアプローチは、主に1次元線形位置関係(しばしば遠方でも文脈的に関連付けられたパッチ間の意味的類似性)に焦点を当てている。
論文 参考訳(メタデータ) (2025-05-14T15:17:34Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [13.495442349395287]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
RoPE-3Dのようなビデオ適応は、空間次元と時間次元を別々に符号化しようとするが、2つの大きな制限に悩まされる。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding [64.29499221878746]
視覚言語モデル(VLM)は、汎用人工知能の進歩において顕著な能力を示している。
PyPEは、VLM内の視覚トークンの知覚を高めるために設計された新しいアプローチである。
本手法は,相互関連視覚要素と命令トークンとの相対的距離を減少させる。
論文 参考訳(メタデータ) (2025-01-19T07:00:46Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Towards Few-shot Entity Recognition in Document Images: A Graph Neural
Network Approach Robust to Image Manipulation [38.09501948846373]
トークン間のトポロジ的隣接関係を導入し、相対的な位置情報を強調する。
言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより、これらのグラフを事前訓練された言語モデルに組み込む。
2つのベンチマークデータセットの実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-24T07:34:33Z) - Rethinking and Improving Relative Position Encoding for Vision
Transformer [61.559777439200744]
リレーショナル位置符号化(RPE)は、トランスフォーマーが入力トークンのシーケンス順序をキャプチャする上で重要である。
画像RPE(iRPE)と呼ばれる2次元画像専用の新しい相対的位置符号化法を提案する。
論文 参考訳(メタデータ) (2021-07-29T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。