論文の概要: TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models
- arxiv url: http://arxiv.org/abs/2505.23769v1
- Date: Thu, 29 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.092349
- Title: TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models
- Title(参考訳): TextRegion:凍結画像テキストモデルによるテキスト対応領域トークン
- Authors: Yao Xiao, Qiqian Fu, Heyi Tao, Yuqun Wu, Zhen Zhu, Derek Hoiem,
- Abstract要約: TextRegionは、画像テキストモデルとSAM2の強みを組み合わせた、シンプルで効果的で、トレーニングなしのフレームワークである。
これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。
- 参考スコア(独自算出の注目度): 16.64400658301794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-text models excel at image-level tasks but struggle with detailed visual understanding. While these models provide strong visual-language alignment, segmentation models like SAM2 offer precise spatial boundaries for objects. To this end, we propose TextRegion, a simple, effective, and training-free framework that combines the strengths of image-text models and SAM2 to generate powerful text-aligned region tokens. These tokens enable detailed visual understanding while preserving open-vocabulary capabilities. They can be directly applied to various downstream tasks, including open-world semantic segmentation, referring expression comprehension, and grounding. We conduct extensive evaluations and consistently achieve superior or competitive performance compared to state-of-the-art training-free methods. Additionally, our framework is compatible with many image-text models, making it highly practical and easily extensible as stronger models emerge. Code is available at: https://github.com/avaxiao/TextRegion.
- Abstract(参考訳): 画像テキストモデルは、画像レベルのタスクでは優れているが、詳細な視覚的理解に苦慮している。
これらのモデルは強力な視覚言語アライメントを提供するが、SAM2のようなセグメンテーションモデルはオブジェクトに対して正確な空間境界を提供する。
この目的のために、画像テキストモデルとSAM2の強みを組み合わせ、強力なテキスト整列領域トークンを生成する、シンプルで効果的でトレーニング不要なフレームワークであるTextRegionを提案する。
これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。
それらは、オープンワールドセマンティックセグメンテーション、表現理解の参照、接地など、さまざまな下流タスクに直接適用することができる。
我々は、最先端のトレーニングフリー手法と比較して、広範囲な評価を行い、常に優れた、または競争的な性能を達成する。
さらに、我々のフレームワークは多くの画像テキストモデルと互換性があり、より強力なモデルが出現するにつれて、非常に実用的で容易に拡張できる。
コードは、https://github.com/avaxiao/TextRegion.comで入手できる。
関連論文リスト
- Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。
我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。
コードとモデルは、UNIMOプロジェクトページで公開されています。
論文 参考訳(メタデータ) (2022-03-17T03:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。