論文の概要: Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
- arxiv url: http://arxiv.org/abs/2510.01954v1
- Date: Thu, 02 Oct 2025 12:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.123903
- Title: Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs
- Title(参考訳): Patch-as-Decodable-Token:MLLMにおける統合型マルチモーダルビジョンタスクを目指して
- Authors: Yongyi Su, Haojie Zhang, Shijie Li, Nanqing Liu, Jingyi Liao, Junyi Pan, Yuan Liu, Xiaofen Xing, Chong Sun, Chen Li, Nancy F. Chen, Shuicheng Yan, Xulei Yang, Xun Xu,
- Abstract要約: Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
- 参考スコア(独自算出の注目度): 88.68484904214142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have advanced rapidly in recent years. However, existing approaches for vision tasks often rely on indirect representations, such as generating coordinates as text for detection, which limits performance and prevents dense prediction tasks like segmentation. To overcome these challenges, we introduce Patch-as-Decodable Token (PaDT), a unified paradigm that enables MLLMs to directly generate both textual and diverse visual outputs. Central to PaDT are Visual Reference Tokens (VRTs), derived from visual patch embeddings of query images and interleaved seamlessly with LLM's output textual tokens. A lightweight decoder then transforms LLM's outputs into detection, segmentation, and grounding predictions. Unlike prior methods, PaDT processes VRTs independently at each forward pass and dynamically expands the embedding table, thus improving localization and differentiation among similar objects. We further tailor a training strategy for PaDT by randomly selecting VRTs for supervised fine-tuning and introducing a robust per-token cross-entropy loss. Our empirical studies across four visual perception and understanding tasks suggest PaDT consistently achieving state-of-the-art performance, even compared with significantly larger MLLM models. The code is available at https://github.com/Gorilla-Lab-SCUT/PaDT.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は近年急速に進歩している。
しかし、既存の視覚タスクのアプローチは、しばしば間接的な表現に依存しており、例えば、検出のためのテキストとして座標を生成することで、性能を制限し、セグメンテーションのような密集した予測タスクを防ぐ。
Patch-as-Decodable Token(PaDT)はMLLMがテキスト出力と多様な視覚出力の両方を直接生成できる統一パラダイムである。
PaDT の中心は Visual Reference Tokens (VRT) であり、クエリイメージの視覚パッチの埋め込みから派生し、LLM の出力テキストトークンとシームレスにインターリーブされる。
軽量デコーダはLLMの出力を検出、セグメンテーション、接地予測に変換する。
従来の方法とは異なり、PaDTはVRTを各前方パスで独立に処理し、埋め込みテーブルを動的に拡張することで、類似したオブジェクト間のローカライゼーションと微分を改善する。
我々はさらに、教師付き微調整のためのVRTをランダムに選択し、頑健な相互エントロピー損失を導入することにより、PaDTのトレーニング戦略を調整する。
4つの視覚的知覚と理解タスクに関する実証的研究は、非常に大きなMLLMモデルと比較しても、PaDTが一貫して最先端のパフォーマンスを達成することを示唆している。
コードはhttps://github.com/Gorilla-Lab-SCUT/PaDT.comから入手できる。
関連論文リスト
- CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。
主な計算負担は、処理されたテキストと視覚トークンから生じる。
視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。