Fugu-MT 論文翻訳(概要): TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

論文の概要: TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models

arxiv url: http://arxiv.org/abs/2505.23769v1
Date: Thu, 29 May 2025 17:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-30 18:14:08.092349
Title: TextRegion: Text-Aligned Region Tokens from Frozen Image-Text Models
Title（参考訳）: TextRegion:凍結画像テキストモデルによるテキスト対応領域トークン
Authors: Yao Xiao, Qiqian Fu, Heyi Tao, Yuqun Wu, Zhen Zhu, Derek Hoiem,
Abstract要約: TextRegionは、画像テキストモデルとSAM2の強みを組み合わせた、シンプルで効果的で、トレーニングなしのフレームワークである。これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。
参考スコア（独自算出の注目度）: 16.64400658301794
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-text models excel at image-level tasks but struggle with detailed visual understanding. While these models provide strong visual-language alignment, segmentation models like SAM2 offer precise spatial boundaries for objects. To this end, we propose TextRegion, a simple, effective, and training-free framework that combines the strengths of image-text models and SAM2 to generate powerful text-aligned region tokens. These tokens enable detailed visual understanding while preserving open-vocabulary capabilities. They can be directly applied to various downstream tasks, including open-world semantic segmentation, referring expression comprehension, and grounding. We conduct extensive evaluations and consistently achieve superior or competitive performance compared to state-of-the-art training-free methods. Additionally, our framework is compatible with many image-text models, making it highly practical and easily extensible as stronger models emerge. Code is available at: https://github.com/avaxiao/TextRegion.
Abstract（参考訳）: 画像テキストモデルは、画像レベルのタスクでは優れているが、詳細な視覚的理解に苦慮している。これらのモデルは強力な視覚言語アライメントを提供するが、SAM2のようなセグメンテーションモデルはオブジェクトに対して正確な空間境界を提供する。この目的のために、画像テキストモデルとSAM2の強みを組み合わせ、強力なテキスト整列領域トークンを生成する、シンプルで効果的でトレーニング不要なフレームワークであるTextRegionを提案する。これらのトークンは、オープン語彙の能力を保ちながら、詳細な視覚的理解を可能にする。それらは、オープンワールドセマンティックセグメンテーション、表現理解の参照、接地など、さまざまな下流タスクに直接適用することができる。我々は、最先端のトレーニングフリー手法と比較して、広範囲な評価を行い、常に優れた、または競争的な性能を達成する。さらに、我々のフレームワークは多くの画像テキストモデルと互換性があり、より強力なモデルが出現するにつれて、非常に実用的で容易に拡張できる。コードは、https://github.com/avaxiao/TextRegion.comで入手できる。

関連論文リスト

AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。 6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文参考訳（メタデータ） (2024-06-17T11:37:48Z)
CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。 CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。視覚言語モデルの領域表現を効果的に強化することができる。
論文参考訳（メタデータ） (2023-12-18T17:39:47Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文参考訳（メタデータ） (2023-01-31T18:33:44Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning [46.914284894632]
本稿では, エンドツーエンドの統一モーダル事前学習フレームワーク, UNIMO-2を提案する。我々は、画像とテキスト間の視覚表現、テキスト表現、意味的アライメントを共同で学習する統合トランスフォーマーモデルを構築した。コードとモデルは、UNIMOプロジェクトページで公開されています。
論文参考訳（メタデータ） (2022-03-17T03:53:11Z)
Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文参考訳（メタデータ） (2021-12-02T13:06:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。