論文の概要: Revisiting Multimodal Positional Encoding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.23095v1
- Date: Mon, 27 Oct 2025 08:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.49226
- Title: Revisiting Multimodal Positional Encoding in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるマルチモーダル位置符号化の再検討
- Authors: Jie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai,
- Abstract要約: マルチモーダルロータリー位置埋め込み(RoPE)の包括的解析を行う。
位置コヒーレンス, 全周波数利用, テキスト先行の保存, 不明瞭なレイアウトの3つの重要なガイドラインを同定する。
これらの知見に基づき,MHROPE (MHROPE) とMRoPE-Interleave (MRoPE-I) を提案する。
- 参考スコア(独自算出の注目度): 43.192123371651554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal position encoding is essential for vision-language models, yet there has been little systematic investigation into multimodal position encoding. We conduct a comprehensive analysis of multimodal Rotary Positional Embedding (RoPE) by examining its two core components: position design and frequency allocation. Through extensive experiments, we identify three key guidelines: positional coherence, full frequency utilization, and preservation of textual priors-ensuring unambiguous layout, rich representation, and faithful transfer from the pre-trained LLM. Based on these insights, we propose Multi-Head RoPE (MHRoPE) and MRoPE-Interleave (MRoPE-I), two simple and plug-and-play variants that require no architectural changes. Our methods consistently outperform existing approaches across diverse benchmarks, with significant improvements in both general and fine-grained multimodal understanding. Code will be avaliable at https://github.com/JJJYmmm/Multimodal-RoPEs.
- Abstract(参考訳): マルチモーダル位置符号化は視覚言語モデルには不可欠であるが、マルチモーダル位置符号化に関する体系的な研究はほとんど行われていない。
位置設計と周波数割り当ての2つの中核成分について検討し, マルチモーダルロータリー位置埋め込み(RoPE)の包括的解析を行った。
広範にわたる実験により,位置コヒーレンス,全周波数利用,テキスト先行の保存,不明瞭なレイアウト,豊かな表現,事前訓練されたLCMからの忠実な伝達の3つの重要なガイドラインを同定した。
これらの知見に基づき、アーキテクチャ変更を必要としない2つのシンプルかつプラグアンドプレイな派生型であるMHRoPE(MHRoPE)とMRoPE-Interleave(MRoPE-I)を提案する。
提案手法は,多種多様なベンチマークにおける既存手法より一貫して優れており,汎用的・微粒なマルチモーダル理解の両面で大幅に改善されている。
コードはhttps://github.com/JJYmmm/Multimodal-RoPEsで検証できる。
関連論文リスト
- MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - DeepMLF: Multimodal language model with learnable tokens for deep fusion in sentiment analysis [62.31018417955254]
DeepMLFは、深層融合に適した学習可能なトークンを持つ新しいマルチモーダル言語モデルである。
以上の結果から,より深層核融合により,既存のアプローチよりも優れた核融合深度 (5-7) が得られることが確認された。
論文 参考訳(メタデータ) (2025-04-15T11:28:02Z) - MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval [44.008094698200026]
クロスモーダル検索は研究コミュニティから有効性や関心が増している。
本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。
我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
論文 参考訳(メタデータ) (2025-03-03T19:01:17Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。