論文の概要: OMEGA: Optimized Multimodal Position Encoding Index Derivation with Global Adaptive Scaling for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.00821v1
- Date: Sun, 02 Nov 2025 06:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.954527
- Title: OMEGA: Optimized Multimodal Position Encoding Index Derivation with Global Adaptive Scaling for Vision-Language Models
- Title(参考訳): OMEGA:視覚言語モデルに対するグローバル適応スケーリングを用いた最適化マルチモーダル位置符号化指数導出
- Authors: Ruoxiang Huang, Xindian Ma, Rundong Kong, Zhen Yuan, Peng Zhang,
- Abstract要約: VLM(Vision-Language Models)は、様々なタスクにおいて強力なパフォーマンスを示す。
位置符号化は、テキスト情報の逐次構造と視覚情報の構造の両方をモデル化する上で重要な役割を果たす。
そこで我々は,MSPE (Modality-Specific Position Scaling) を用いて位置指標を割り当てる新しい位置符号化フレームワーク OMEGA を提案する。
- 参考スコア(独自算出の注目度): 4.809606597614951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong performance across various multimodal tasks, where position encoding plays a vital role in modeling both the sequential structure of textual information and the spatial structure of visual information. However, current VLMs commonly adopt modality-unified 1D or 2D positional indexing strategies, which treat textual and visual tokens uniformly without accounting for their distinct structural properties and sequential continuity for text and spatial coherence for vision. To address this limitation, we propose OMEGA, a novel position encoding framework that employs Modality-Specific Position Encoding (MSPE) to assign positional indices while preserving the inherent structures of each modality across separate coordinate dimensions. Additionally, to align the information density of multimodal data in the positional index space, OMEGA introduces Global Adaptive Encoding Step Scaling (GAESS), which adaptively adjusts the position encoding step size of visual tokens based on the embedding entropy of both modalities. Experimental results demonstrate that OMEGA consistently enhances VLM performance across diverse architectures and VQA benchmarks. On visual-intensive tasks, OMEGA achieves up to 3.43% improvement over baseline position encoding strategies on Qwen2.5-VL-3B, with consistent gains observed across larger models including Qwen2.5-VL-7B and LLaVA-v1.5-7B.
- Abstract(参考訳): 視覚言語モデル(VLM)は、テキスト情報の逐次構造と視覚情報の空間構造の両方をモデル化する上で、位置符号化が重要な役割を果たす様々なマルチモーダルタスクにおいて、強い性能を示す。
しかしながら、現在のVLMでは、テキストの構造的特性や連続性を考慮せずにテキストおよび視覚トークンを均一に扱う、モダリティ統一された1Dまたは2D位置インデックス戦略が一般的である。
この制限に対処するために,モータリティ-特定位置符号化(MSPE)を用いた新しい位置符号化フレームワークOMEGAを提案する。
さらに、位置指数空間におけるマルチモーダルデータの情報密度を調整するために、OMEGAはGlobal Adaptive Encoding Step Scaling (GAESS)を導入し、両方のモダリティの埋め込みエントロピーに基づいて視覚トークンの位置符号化ステップサイズを適応的に調整する。
実験により、OMEGAは様々なアーキテクチャとVQAベンチマークでVLM性能を一貫して向上することを示した。
Qwen2.5-VL-7B や LLaVA-v1.5-7B など大型のモデルで一貫したゲインを観測し、Qwen2.5-VL-3B のベースライン位置符号化戦略よりも最大3.43%向上した。
関連論文リスト
- Learnable Spatial-Temporal Positional Encoding for Link Prediction [44.0907827498725]
L-STEP という単純な時間リンク予測モデルを提案する。
L-STEPは、空間時間スペクトルの観点からグラフ特性を保存することができる。
L-STEPは最新の大規模TGBベンチマークで主要な性能を得る。
論文 参考訳(メタデータ) (2025-06-10T00:35:53Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Tabular Embeddings for Tables with Bi-Dimensional Hierarchical Metadata and Nesting [0.7421845364041001]
テーブル内の複雑な2次元コンテキストの複雑さを符号化するために最適化された新しい特殊埋め込みを導入する。
我々の解は、最大0.28のMAPデルタで最先端のモデルより優れている。
論文 参考訳(メタデータ) (2025-02-20T01:04:11Z) - Exploring Primitive Visual Measurement Understanding and the Role of Output Format in Learning in Vision-Language Models [46.28245341706191]
本研究では視覚四分法モデル(VLM)の視覚的理解と原始形状の測定能力について検討する。
ローランド適応(LoRA)を用いて最先端のVLMを微調整し、複数のオフ・オブ・ドメイン(OD)シナリオで検証する。
論文 参考訳(メタデータ) (2025-01-25T09:01:37Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Aligning Large Language Models and Geometric Deep Models for Protein Representation [57.59506688299817]
遅延表現アライメントは、異なるモダリティからの埋め込みを共有空間にマッピングするために使用され、しばしば大きな言語モデル(LLM)の埋め込み空間と一致している。
プリミティブなタンパク質中心の大規模言語モデル (MLLM) が登場したが、それらは表現の至る所で最適なアライメントの実践に関する根本的な理解が欠如しているアプローチに大きく依存している。
本研究では,タンパク質領域におけるLLMと幾何学的深部モデル(GDM)のマルチモーダル表現のアライメントについて検討する。
本研究は, モデルおよびタンパク質の観点からのアライメント要因について検討し, 現行アライメント手法の課題を特定し, アライメントプロセスを改善するための戦略を提案する。
論文 参考訳(メタデータ) (2024-11-08T04:15:08Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。