論文の概要: Test-time Contrastive Concepts for Open-world Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2407.05061v2
- Date: Fri, 24 Jan 2025 21:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.271914
- Title: Test-time Contrastive Concepts for Open-world Semantic Segmentation
- Title(参考訳): オープンワールドセマンティックセグメンテーションのためのテスト時間コントラストの概念
- Authors: Monika Wysoczańska, Antonin Vobecky, Amaia Cardiel, Tomasz Trzciński, Renaud Marlet, Andrei Bursuc, Oriane Siméoni,
- Abstract要約: 最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.899741072838994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent CLIP-like Vision-Language Models (VLMs), pre-trained on large amounts of image-text pairs to align both modalities with a simple contrastive objective, have paved the way to open-vocabulary semantic segmentation. Given an arbitrary set of textual queries, image pixels are assigned the closest query in feature space. However, this works well when a user exhaustively lists all possible visual concepts in an image, which contrast against each other for the assignment. This corresponds to the current evaluation setup in the literature which relies on having access to a list of in-domain relevant concepts, typically classes of a benchmark dataset. Here, we consider the more challenging (and realistic) scenario of segmenting a single concept, given a textual prompt and nothing else. To achieve good results, besides contrasting with the generic $\textit{background}$ text, we propose two different approaches to automatically generate, at test time, textual contrastive concepts that are query-specific. We do so by leveraging the distribution of text in the VLM's training set or crafted LLM prompts. We also propose a metric designed to evaluate this scenario and show the relevance of our approach to commonly used datasets.
- Abstract(参考訳): 最近のCLIP-like Vision-Language Models (VLMs) は、両モードを単純な対照的な目的と整合させるために、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセマンティクスへの道を開いた。
任意のテキストクエリセットが与えられた場合、画像ピクセルは特徴空間内で最も近いクエリに割り当てられる。
しかし、画像内のすべての可能な視覚概念を網羅的にリストアップすると、これはうまく機能する。
これは、一般的にベンチマークデータセットのクラスである、ドメイン内の関連する概念のリストへのアクセスに依存する文学における現在の評価設定に対応する。
ここでは、テキストのプロンプトとその他何も考慮し、単一の概念をセグメント化するより難しい(そして現実的な)シナリオを考えます。
一般的な$\textit{background}$ textと対照的に、テスト時にクエリ固有のテキストコントラストの概念を自動的に生成する2つの異なるアプローチを提案する。
VLM のトレーニングセットや工芸 LLM プロンプトにおけるテキストの分布を活用することで実現している。
また、このシナリオを評価し、一般的に使用されるデータセットに対するアプローチの関連性を示す指標も提案する。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。
本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-05T04:08:41Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。
モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。
GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文 参考訳(メタデータ) (2021-04-26T17:55:33Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Evaluating Multimodal Representations on Visual Semantic Textual
Similarity [22.835699807110018]
本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
論文 参考訳(メタデータ) (2020-04-04T09:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。