論文の概要: A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2407.05061v1
- Date: Sat, 6 Jul 2024 12:18:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 21:18:15.678882
- Title: A Study of Test-time Contrastive Concepts for Open-world, Open-vocabulary Semantic Segmentation
- Title(参考訳): オープンワールド, オープンボキャブラリセマンティックセマンティックセグメンテーションのためのテストタイムコントラストの概念に関する研究
- Authors: Monika Wysoczańska, Antonin Vobecky, Amaia Cardiel, Tomasz Trzciński, Renaud Marlet, Andrei Bursuc, Oriane Siméoni,
- Abstract要約: 最近のVLMは、大量の画像とテキストのペアで事前訓練されており、オープン語彙のセマンティックセマンティックセグメンテーションへの道を開いた。
ここでは、テキストのプロンプトとその他何も考慮し、単一の概念をセグメント化するより難しいシナリオを考えます。
一般的な"背景"テキストとは対照的に,クエリ固有のテストタイムのコントラッシブテキストの概念を生成するさまざまな方法について検討する。
- 参考スコア(独自算出の注目度): 14.899741072838994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent VLMs, pre-trained on large amounts of image-text pairs to align both modalities, have opened the way to open-vocabulary semantic segmentation. Given an arbitrary set of textual queries, image regions are assigned the closest query in feature space. However, the usual setup expects the user to list all possible visual concepts that may occur in the image, typically all classes of benchmark datasets, that act as negatives to each other. We consider here the more challenging scenario of segmenting a single concept, given a textual prompt and nothing else. To achieve good results, besides contrasting with the generic 'background' text, we study different ways to generate query-specific test-time contrastive textual concepts, which leverage either the distribution of text in the VLM's training set or crafted LLM prompts. We show the relevance of our approach using a new, specific metric.
- Abstract(参考訳): 最近のVLMは、両方のモダリティを整合させるために大量の画像テキストペアで事前訓練されており、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
任意のテキストクエリセットが与えられた場合、画像領域は特徴空間内で最も近いクエリに割り当てられる。
しかし、通常の設定では、ユーザーがイメージで起こりうるすべての視覚概念、通常ベンチマークデータセットのクラスをリストアップし、互いにネガティブに振る舞うことを期待している。
ここでは、テキストのプロンプトとその他何も考慮し、単一の概念をセグメント化するより難しいシナリオを考えます。
提案手法は,一般的な「背景」テキストとは対照的に,VLMのトレーニングセットにおけるテキストの分散や,LLMプロンプトの工法を利用した,クエリ固有のテストタイムコントラストテキストの概念を生成する方法が異なる。
我々は、新しい特定の指標を用いて、我々のアプローチの関連性を示す。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Text-based Person Search in Full Images via Semantic-Driven Proposal
Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。
クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文 参考訳(メタデータ) (2021-09-27T11:42:40Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Evaluating Multimodal Representations on Visual Semantic Textual
Similarity [22.835699807110018]
本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。
単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。
我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
論文 参考訳(メタデータ) (2020-04-04T09:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。