論文の概要: ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.21465v1
- Date: Tue, 27 May 2025 17:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.835018
- Title: ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
- Title(参考訳): ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models
- Authors: Bozhou Li, Wentao Zhang,
- Abstract要約: VLM(Vision-Language Models)の性能向上のための一般的なアプローチは、高解像度バージョンと画像のサムネイルの両方を同時に符号化することである。
位置 ID を並べ替えることでこれらの問題を緩和する ID-Align を提案する。
LLaVA-Nextフレームワークで実施した実験では,ID-Alignが大幅に改善された。
- 参考スコア(独自算出の注目度): 24.087014423545067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, a prevalent approach for enhancing Vision-Language Models (VLMs) performance is to encode both the high-resolution version and the thumbnail of an image simultaneously. While effective, this method generates a large number of image tokens. When combined with the widely used Rotary Position Embedding (RoPE), its long-term decay property hinders the interaction between high-resolution tokens and thumbnail tokens, as well as between text and image. To address these issues, we propose ID-Align, which alleviates these problems by reordering position IDs. In this method, high-resolution tokens inherit IDs from their corresponding thumbnail token while constraining the overexpansion of positional indices. Our experiments conducted within the LLaVA-Next framework demonstrate that ID-Align achieves significant improvements, including a 6.09% enhancement on MMBench's relation reasoning tasks and notable gains across multiple benchmarks. Our code is available at the following link: https://github.com/zooblastlbz/ID-Align.
- Abstract(参考訳): 現在、VLM(Vision-Language Models)の性能向上のための一般的なアプローチは、高解像度バージョンと画像のサムネイルの両方を同時に符号化することである。
有効ではあるが、この方法は多数の画像トークンを生成する。
広く使われているロータリー位置埋め込み(Rotary Position Embedding, RoPE)と組み合わせると、その長期的な減衰特性は、高分解能トークンとサムネイルトークンの相互作用を妨げ、テキストと画像の相互作用を阻害する。
これらの問題に対処するために、位置 ID を並べ替えることでこれらの問題を緩和する ID-Align を提案する。
この方法では、高解像度のトークンが対応するサムネイルトークンからIDを継承し、位置指標の過度な拡張を制約する。
LLaVA-Nextフレームワークで実施した実験では,MMBenchの関係推論タスクの6.09%向上や,複数のベンチマークでの顕著な向上など,ID-Alignが大幅な改善を実現していることが示された。
私たちのコードは以下のリンクで利用可能です。
関連論文リスト
- Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models [35.471513870514585]
ロータリー位置埋め込み(RoPE)は,大規模言語モデルにおいて相対位置情報を符号化する手法として広く採用されている。
RoPEの変種はテキストトークンインデックスと画像トークン間の相対的な位置依存を強制し、急激なアライメントを引き起こす。
画像トークンインデックスを円軌道に写し、テキストトークンインデックスの直線経路にマッピングし、円錐状構造を形成する新しい符号化方式であるCircle-RoPEを導入する。
論文 参考訳(メタデータ) (2025-05-22T09:05:01Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - Enhancing Embedding Representation Stability in Recommendation Systems with Semantic ID [29.560370412849874]
本稿では,従来のセマンティックIDの性能を大幅に向上させる新しいトークンパラメータ化手法であるセマンティックIDプレフィックスngramを紹介する。
セマンティックIDプレフィックスngramは, 組込み不安定性に対処するだけでなく, テールIDモデリングを著しく改善し, オーバーフィッティングを低減し, 表現シフトを緩和する。
また,Semantic IDをMeta Production Ads Rankingシステムに統合した経験を報告する。
論文 参考訳(メタデータ) (2025-04-02T21:28:38Z) - ID-Patch: Robust ID Association for Group Photo Personalization [29.38844265790726]
ID-Patchは、アイデンティティと2D位置の堅牢な関連を提供する新しい方法である。
アプローチでは,同じ顔の特徴からIDパッチとID埋め込みを生成する。
論文 参考訳(メタデータ) (2024-11-20T18:55:28Z) - FlexAttention for Efficient High-Resolution Vision-Language Models [67.82024785677801]
本稿では,高解像度視覚言語モデルのためのフレキシブルアテンション機構であるFlexAttentionを提案する。
高分解能画像は高分解能トークンと低分解能トークンの両方として符号化され、低分解能トークンといくつかの選択された高分解能トークンのみが使用される。
マルチモーダルベンチマークの実験は、FlexAttentionが既存の高解像度のVLMより優れていることを証明しています。
論文 参考訳(メタデータ) (2024-07-29T17:59:05Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery [28.875236694573815]
我々は低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化した。
結果として得られる多重解像度特徴ピラミッドは、VLADを介して1つのコンパクト表現に便利に集約することができる。
基礎となる学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。