論文の概要: SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation
- arxiv url: http://arxiv.org/abs/2602.12173v1
- Date: Thu, 12 Feb 2026 17:01:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.949054
- Title: SAM3-LiteText: An Anatomical Study of the SAM3 Text Encoder for Efficient Vision-Language Segmentation
- Title(参考訳): SAM3-LiteText:効率的な視覚・言語セグメンテーションのためのSAM3テキストエンコーダの解剖学的研究
- Authors: Chengxi Zeng, Yuxuan Jiang, Ge Gao, Shuai Wang, Duolikun Danier, Bin Zhu, Stevan Rudinac, David Bull, Fan Zhang,
- Abstract要約: SAM3のような視覚言語セグメンテーションモデルは、もともとオープンエンド言語理解のために設計された大規模で汎用的なテキストエンコーダを継承する。
実際には、セグメンテーションのプロンプトは短く、構造化され、意味的に制約されているため、テキストエンコーダのキャパシティと永続的な計算とメモリオーバーヘッドが大幅にオーバープロビジョンされる。
我々は,オリジナルのSAM3テキストエンコーダをコンパクトなMobileCLIP学生に置き換える軽量テキストエンコーダフレームワークSAM3-LiteTextを提案する。
- 参考スコア(独自算出の注目度): 28.823426371940176
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language segmentation models such as SAM3 enable flexible, prompt-driven visual grounding, but inherit large, general-purpose text encoders originally designed for open-ended language understanding. In practice, segmentation prompts are short, structured, and semantically constrained, leading to substantial over-provisioning in text encoder capacity and persistent computational and memory overhead. In this paper, we perform a large-scale anatomical analysis of text prompting in vision-language segmentation, covering 404,796 real prompts across multiple benchmarks. Our analysis reveals severe redundancy: most context windows are underutilized, vocabulary usage is highly sparse, and text embeddings lie on low-dimensional manifold despite high-dimensional representations. Motivated by these findings, we propose SAM3-LiteText, a lightweight text encoding framework that replaces the original SAM3 text encoder with a compact MobileCLIP student that is optimized by knowledge distillation. Extensive experiments on image and video segmentation benchmarks show that SAM3-LiteText reduces text encoder parameters by up to 88%, substantially reducing static memory footprint, while maintaining segmentation performance comparable to the original model. Code: https://github.com/SimonZeng7108/efficientsam3/tree/sam3_litetext.
- Abstract(参考訳): SAM3のような視覚言語セグメンテーションモデルは、フレキシブルでプロンプト駆動のビジュアルグラウンドを可能にするが、元々はオープンエンド言語理解のために設計された、大規模で汎用的なテキストエンコーダを継承する。
実際には、セグメンテーションのプロンプトは短く、構造化され、意味的に制約されているため、テキストエンコーダのキャパシティと永続的な計算とメモリオーバーヘッドが大幅にオーバープロビジョンされる。
本稿では,複数のベンチマークで404,796個の実効プロンプトを網羅し,視覚言語セグメンテーションにおけるテキストの大規模解剖学的解析を行う。
我々の分析では,ほとんどのコンテキストウィンドウは未利用であり,語彙の使い方は疎外であり,テキスト埋め込みは高次元表現にも拘わらず低次元多様体上に置かれている,という深刻な冗長性を明らかにした。
そこで本研究では,従来のSAM3テキストエンコーダを,知識蒸留により最適化されたコンパクトなMobileCLIP学生に置き換える軽量テキストエンコーダであるSAM3-LiteTextを提案する。
画像とビデオのセグメンテーションベンチマークの大規模な実験により、SAM3-LiteTextはテキストエンコーダパラメータを最大88%削減し、静的メモリフットプリントを大幅に削減し、オリジナルのモデルに匹敵するセグメンテーション性能を維持した。
コード:https://github.com/SimonZeng7108/efficientsam3/tree/sam3_litetext。
関連論文リスト
- Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。
鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。
自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-09-08T04:07:14Z) - SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters [0.5755004576310334]
本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。
具体的には,SAMのイメージにテキスト埋め込みを注入し,セマンティクスによるセグメンテーションを可能にするParallel-Textという軽量アダプタを提案する。
固定テキスト埋め込みを入力として組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
論文 参考訳(メタデータ) (2025-07-31T23:26:39Z) - Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale
Image-Text Retrieval [71.01982683581572]
従来の高密度検索パラダイムは、デュアルストリームエンコーダを用いて画像やテキストを高密度表現に符号化することに依存している。
本稿では,語彙空間における疎表現を画像やテキストに対して学習する語彙重み付けパラダイムを提案する。
重要度を意識した辞書表現を学習する新しい事前学習フレームワークを提案する。
我々のフレームワークは、検索速度5.5221.3倍、インデックス記憶メモリ13.248.8倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-02-06T16:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。