論文の概要: Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
- arxiv url: http://arxiv.org/abs/2505.17726v2
- Date: Mon, 26 May 2025 05:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.742771
- Title: Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM
- Title(参考訳): Slot-MLLM:マルチモーダルLCMのためのオブジェクト中心視覚トークン化
- Authors: Donghwan Chi, Hyomin Kim, Yoonjin Oh, Yongjin Kim, Donghoon Lee, Daejin Jo, Jongmin Kim, Junyeob Baek, Sungjin Ahn, Sungwoong Kim,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。
MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
- 参考スコア(独自算出の注目度): 21.967692616735196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal large language models (MLLMs) have emerged as a key approach in achieving artificial general intelligence. In particular, vision-language MLLMs have been developed to generate not only text but also visual outputs from multimodal inputs. This advancement requires efficient image tokens that LLMs can process effectively both in input and output. However, existing image tokenization methods for MLLMs typically capture only global abstract concepts or uniformly segmented image patches, restricting MLLMs' capability to effectively understand or generate detailed visual content, particularly at the object level. To address this limitation, we propose an object-centric visual tokenizer based on Slot Attention specifically for MLLMs. In particular, based on the Q-Former encoder, diffusion decoder, and residual vector quantization, our proposed discretized slot tokens can encode local visual details while maintaining high-level semantics, and also align with textual data to be integrated seamlessly within a unified next-token prediction framework of LLMs. The resulting Slot-MLLM demonstrates significant performance improvements over baselines with previous visual tokenizers across various vision-language tasks that entail local detailed comprehension and generation. Notably, this work is the first demonstration of the feasibility of object-centric slot attention performed with MLLMs and in-the-wild natural images.
- Abstract(参考訳): 近年,多モーダル大規模言語モデル (MLLM) が人工知能の実現において重要なアプローチとして登場している。
特に、視覚言語MLLMは、テキストだけでなく、マルチモーダル入力からの視覚出力を生成するために開発された。
この進歩には、LLMが入力と出力の両方で効率的に処理できる効率的な画像トークンが必要である。
しかし、MLLMの既存の画像トークン化手法は、一般的にグローバルな抽象概念や一様にセグメンテーションされたイメージパッチのみをキャプチャし、特にオブジェクトレベルで詳細なビジュアルコンテンツを効果的に理解または生成する能力を制限する。
この制限に対処するため,MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。
特に、Q-Formerエンコーダ、拡散デコーダ、残留ベクトル量子化に基づいて、提案した離散化スロットトークンは、高レベルのセマンティクスを維持しつつ、局所的な視覚的詳細を符号化し、LLMの統一された次世代予測フレームワークにシームレスに統合するためにテキストデータと整合する。
結果として得られたSlot-MLLMは、局所的な詳細な理解と生成を必要とする様々な視覚言語タスクにまたがる、以前の視覚トークン化器によるベースラインよりも大幅なパフォーマンス向上を示す。
特に、この研究はMLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性を示す最初のものである。
関連論文リスト
- SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs [7.03771340666549]
MLLM(Multimodal Large Language Models)における視覚言語ミスアライメントは重要な課題である。
本稿では,MMA(Modality-mutual attention)に因果的注意を開放し,画像トークンがテキストトークンに参加することを可能にする新しいMLLMであるMapleLeaf AKIを提案する。
我々のMMA設計は汎用的であり、様々なモダリティにまたがるアプリケーションを可能にし、多様なマルチモーダルシナリオに対応できるようにスケーラブルである。
論文 参考訳(メタデータ) (2025-03-04T13:18:33Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation [10.468784974994465]
マルチモーダル言語モデル(MLLM)におけるプロジェクタの役割
プロジェクタに関する現在の調査では、効率を改善するために視覚トークンの数を減らすことに重点を置いている。
この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:25:09Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。