論文の概要: Re-purposing SAM into Efficient Visual Projectors for MLLM-Based Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.13676v1
- Date: Wed, 17 Sep 2025 04:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.709108
- Title: Re-purposing SAM into Efficient Visual Projectors for MLLM-Based Referring Image Segmentation
- Title(参考訳): MLLM参照画像セグメンテーションのための効率的なビジュアルプロジェクタへのSAMの再利用
- Authors: Xiaobo Yang, Xiaojin Gong,
- Abstract要約: 画像中の「視覚的言葉」を識別するために,意味的スーパーピクセルを用いた新しい意味的視覚プロジェクタを提案する。
セマンティック・スーパーピクセルを視覚トークンとして圧縮・投影することにより,シーンに応じたトークンシーケンスを適応的に短縮する。
実験の結果,性能を損なうことなく視覚トークンを93%削減できることがわかった。
- 参考スコア(独自算出の注目度): 9.120581644616488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Referring Image Segmentation (RIS) frameworks that pair the Multimodal Large Language Model (MLLM) with the Segment Anything Model (SAM) have achieved impressive results. However, adapting MLLM to segmentation is computationally intensive, primarily due to visual token redundancy. We observe that traditional patch-wise visual projectors struggle to strike a balance between reducing the number of visual tokens and preserving semantic clarity, often retaining overly long token sequences to avoid performance drops. Inspired by text tokenizers, we propose a novel semantic visual projector that leverages semantic superpixels generated by SAM to identify "visual words" in an image. By compressing and projecting semantic superpixels as visual tokens, our approach adaptively shortens the token sequence according to scene complexity while minimizing semantic loss in compression. To mitigate loss of information, we propose a semantic superpixel positional embedding to strengthen MLLM's awareness of superpixel geometry and position, alongside a semantic superpixel aggregator to preserve both fine-grained details inside superpixels and global context outside. Experiments show that our method cuts visual tokens by 93% without compromising performance, notably speeding up MLLM training and inference, and outperforming existing compressive visual projectors on RIS.
- Abstract(参考訳): 近年,Multimodal Large Language Model(MLLM)とSAM(Segment Anything Model)を組み合わせたRIS(Refering Image Segmentation)フレームワークが注目されている。
しかし、MLLMのセグメンテーションへの適応は、主に視覚的トークンの冗長性のため、計算集約的である。
従来のパッチワイドなビジュアルプロジェクタは、視覚トークンの数を減らし、セマンティックな明快さを保ち、パフォーマンス低下を避けるために極端に長いトークンシーケンスを保持することでバランスをとるのに苦労している。
そこで本研究では,SAMが生成したセマンティック・スーパーピクセルを利用して画像中の「視覚的単語」を識別するセマンティック・ビジュアル・プロジェクタを提案する。
意味的スーパーピクセルを視覚的トークンとして圧縮・投影することにより、圧縮における意味的損失を最小限に抑えつつ、シーンの複雑さに応じてトークンシーケンスを適応的に短縮する。
情報損失を軽減するために,MLLMのスーパーピクセル幾何学と位置認識を強化するセマンティックスーパーピクセル位置埋め込みと,スーパーピクセル内の細粒度と外部のグローバルコンテキストの両方を保存するためのセマンティックスーパーピクセルアグリゲータを提案する。
実験の結果,MLLMのトレーニングや推論を高速化し,既存のRISの圧縮型ビジュアルプロジェクタよりも優れた精度で視覚トークンを93%削減できることがわかった。
関連論文リスト
- Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation [10.468784974994465]
マルチモーダル言語モデル(MLLM)におけるプロジェクタの役割
プロジェクタに関する現在の調査では、効率を改善するために視覚トークンの数を減らすことに重点を置いている。
この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。
論文 参考訳(メタデータ) (2024-10-14T09:25:09Z) - Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models [28.019592576500113]
本研究では,MLLM内の視覚言語意味の流れを解釈し,プロジェクタモジュールについて検討する。
その結果,圧縮プロジェクタはオブジェクトや属性などの限られた意味概念の集合に視覚パッチを抽象化し,結果として「二重抽象化」現象が生じることがわかった。
本稿では,プロジェクタによるパッチレベルで視覚トークン番号を圧縮する「抽象化からのデカップル圧縮(Decouple Compression from Abstraction, DeCo)」について,重要な知見を提案する。
論文 参考訳(メタデータ) (2024-05-31T16:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。