論文の概要: Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
- arxiv url: http://arxiv.org/abs/2505.17726v1
- Date: Fri, 23 May 2025 10:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.006498
- Title: Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
- Title(参考訳): Slot-MLLM:マルチモーダルLCMのためのオブジェクト中心視覚トークン化
- Authors: Donghwan Chi, Hyomin Kim, Yoonjin Oh, Yongjin Kim, Donghoon Lee, Daejin Jo, Jongmin Kim, Junyeob Baek, Sungjin Ahn, Sungwoong Kim,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。
MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
- 参考スコア(独自算出の注目度): 21.967692616735196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal large language models (MLLMs) have emerged as a key approach in achieving artificial general intelligence. In particular, vision-language MLLMs have been developed to generate not only text but also visual outputs from multimodal inputs. This advancement requires efficient image tokens that LLMs can process effectively both in input and output. However, existing image tokenization methods for MLLMs typically capture only global abstract concepts or uniformly segmented image patches, restricting MLLMs' capability to effectively understand or generate detailed visual content, particularly at the object level. To address this limitation, we propose an object-centric visual tokenizer based on Slot Attention specifically for MLLMs. In particular, based on the Q-Former encoder, diffusion decoder, and residual vector quantization, our proposed discretized slot tokens can encode local visual details while maintaining high-level semantics, and also align with textual data to be integrated seamlessly within a unified next-token prediction framework of LLMs. The resulting Slot-MLLM demonstrates significant performance improvements over baselines with previous visual tokenizers across various vision-language tasks that entail local detailed comprehension and generation. Notably, this work is the first demonstration of the feasibility of object-centric slot attention performed with MLLMs and in-the-wild natural images.
- Abstract(参考訳): 近年,多モーダル大規模言語モデル (MLLM) が人工知能の実現において重要なアプローチとして登場している。
特に、視覚言語MLLMは、テキストだけでなく、マルチモーダル入力からの視覚出力を生成するために開発された。
この進歩には、LLMが入力と出力の両方で効率的に処理できる効率的な画像トークンが必要である。
しかし、MLLMの既存の画像トークン化手法は、一般的にグローバルな抽象概念や一様にセグメンテーションされたイメージパッチのみをキャプチャし、特にオブジェクトレベルで詳細なビジュアルコンテンツを効果的に理解または生成する能力を制限する。
この制限に対処するため,MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
特に、Q-Formerエンコーダ、拡散デコーダ、残留ベクトル量子化に基づいて、提案した離散化スロットトークンは、高レベルのセマンティクスを維持しつつ、局所的な視覚的詳細を符号化し、LLMの統一された次世代予測フレームワークにシームレスに統合するためにテキストデータと整合する。
結果として得られたSlot-MLLMは、局所的な詳細な理解と生成を必要とする様々な視覚言語タスクにまたがる、以前の視覚トークン化器によるベースラインよりも大幅なパフォーマンス向上を示す。
特に、この研究はMLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性を示す最初のものである。
関連論文リスト
- SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。