論文の概要: Positional Preservation Embedding for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.22936v1
- Date: Mon, 27 Oct 2025 02:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.422553
- Title: Positional Preservation Embedding for Multimodal Large Language Models
- Title(参考訳): 多モーダル大言語モデルのための位置保存埋め込み
- Authors: Mouxiao Huang, Borui Jiang, Dehua Zheng, Hailin Hu, Kai Han, Xinghao Chen,
- Abstract要約: マルチモーダル言語モデル(LMLM)は視覚言語タスクにおいて高い性能を達成しているが、冗長な視覚トークンによってしばしば非効率に悩まされている。
本研究では,トークン圧縮時の空間保存構造を新規に符号化する手法を提案する。
PPEは、プログレッシブトークン圧縮戦略であるクラスタリングを効果的にサポートし、パフォーマンスの維持を向上できることを示す。
- 参考スコア(独自算出の注目度): 20.307929204794917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have achieved strong performance on vision-language tasks, yet often suffer from inefficiencies due to redundant visual tokens. Existing token merging methods reduce sequence length but frequently disrupt spatial layouts and temporal continuity by disregarding positional relationships. In this work, we propose a novel encoding operator dubbed as \textbf{P}ositional \textbf{P}reservation \textbf{E}mbedding (\textbf{PPE}), which has the main hallmark of preservation of spatiotemporal structure during visual token compression. PPE explicitly introduces the disentangled encoding of 3D positions in the token dimension, enabling each compressed token to encapsulate different positions from multiple original tokens. Furthermore, we show that PPE can effectively support cascade clustering -- a progressive token compression strategy that leads to better performance retention. PPE is a parameter-free and generic operator that can be seamlessly integrated into existing token merging methods without any adjustments. Applied to state-of-the-art token merging framework, PPE achieves consistent improvements of $2\%\sim5\%$ across multiple vision-language benchmarks, including MMBench (general vision understanding), TextVQA (layout understanding) and VideoMME (temporal understanding). These results demonstrate that preserving positional cues is critical for efficient and effective MLLM reasoning.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は視覚言語タスクにおいて高い性能を達成しているが、冗長な視覚トークンによってしばしば非効率に悩まされている。
既存のトークンマージ手法はシーケンス長を減少させるが、位置関係を無視した空間配置や時間連続性を頻繁に破壊する。
本稿では,視覚的トークン圧縮における時空間構造保存の主指標となる,新しい符号化演算子を,‘textbf{P}ositional \textbf{P}reservation \textbf{E}mbedding(\textbf{PPE})’と呼ぶ。
PPEは、トークン次元における3D位置の不整合符号化を明示的に導入し、圧縮されたトークンが複数の元のトークンから異なる位置をカプセル化できるようにする。
さらに, PPEは, プログレッシブトークン圧縮戦略であるカスケードクラスタリングを効果的にサポートし, 性能の維持を図ることができることを示す。
PPEはパラメータフリーで汎用的な演算子で、調整なしで既存のトークンマージメソッドにシームレスに統合できる。
最先端のトークンマージフレームワークに適用されるPPEは、MMBench(一般ビジョン理解)、TextVQA(レイアウト理解)、VideoMME(一時理解)など、複数のビジョンベンチマークで2.5%\sim5\%の一貫性のある改善を実現している。
これらの結果から, 位置的手がかりの保存は, 効率的かつ効果的なMLLM推論に重要であることが示唆された。
関連論文リスト
- From Characters to Tokens: Dynamic Grouping with Hierarchical BPE [7.301118515210817]
代名詞のトークン化法は、大きな言語モデルで広く使われている。
稀な単語を表現するのに非効率で、大きな埋め込み行列を必要とする。
本稿では,既存のBPEトークン化の構造を利用した動的文字グループ化手法を提案する。
論文 参考訳(メタデータ) (2025-10-17T10:42:10Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。