論文の概要: Textual Query-Driven Mask Transformer for Domain Generalized Segmentation
- arxiv url: http://arxiv.org/abs/2407.09033v1
- Date: Fri, 12 Jul 2024 06:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:26:50.026542
- Title: Textual Query-Driven Mask Transformer for Domain Generalized Segmentation
- Title(参考訳): ドメイン一般化セグメンテーションのためのテキストクエリ駆動型マスク変換器
- Authors: Byeonghyun Pak, Byeongju Woo, Sunghwan Kim, Dae-hwan Kim, Hoseong Kim,
- Abstract要約: 視覚言語モデルのテキスト埋め込みからドメイン不変セマンティック知識を活用することにより、ドメイン一般化セマンティック(DGSS)に取り組む手法を提案する。
我々は、変換器ベースのセグメンテーションフレームワーク(テキストオブジェクトクエリ)内で、オブジェクトクエリとしてテキスト埋め込みを採用する。
我々のtqdmはGTA5$rightarrow$Cityscapes上で68.9 mIoUを達成した。
- 参考スコア(独自算出の注目度): 3.8647440589551922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a method to tackle Domain Generalized Semantic Segmentation (DGSS) by utilizing domain-invariant semantic knowledge from text embeddings of vision-language models. We employ the text embeddings as object queries within a transformer-based segmentation framework (textual object queries). These queries are regarded as a domain-invariant basis for pixel grouping in DGSS. To leverage the power of textual object queries, we introduce a novel framework named the textual query-driven mask transformer (tqdm). Our tqdm aims to (1) generate textual object queries that maximally encode domain-invariant semantics and (2) enhance the semantic clarity of dense visual features. Additionally, we suggest three regularization losses to improve the efficacy of tqdm by aligning between visual and textual features. By utilizing our method, the model can comprehend inherent semantic information for classes of interest, enabling it to generalize to extreme domains (e.g., sketch style). Our tqdm achieves 68.9 mIoU on GTA5$\rightarrow$Cityscapes, outperforming the prior state-of-the-art method by 2.5 mIoU. The project page is available at https://byeonghyunpak.github.io/tqdm.
- Abstract(参考訳): 本稿では,視覚言語モデルのテキスト埋め込みから,ドメイン不変の意味知識を活用することによって,ドメイン一般化セマンティックセマンティックセマンティックセマンティックセマンティクス(DGSS)に取り組む手法を提案する。
我々は、変換器ベースのセグメンテーションフレームワーク(テキストオブジェクトクエリ)内で、オブジェクトクエリとしてテキスト埋め込みを使用します。
これらのクエリは、DGSSにおけるピクセルグループ化のドメイン不変基底と見なされる。
テキスト・オブジェクト・クエリのパワーを活用するために,テキスト・クエリ・ドリブン・マスク・トランスフォーマ (tqdm) と呼ばれる新しいフレームワークを導入する。
tqdmの目的は,(1)ドメイン不変セマンティクスを最大エンコードするテキストオブジェクトクエリを生成し,(2)高密度な視覚的特徴のセマンティクスを明確にすることである。
さらに,視覚的特徴とテキスト的特徴の整合により,tqdmの有効性を向上させるために3つの正規化損失を提案する。
本手法を用いることで,本モデルは興味のあるクラスに固有の意味情報を理解し,極端なドメイン(スケッチスタイルなど)に一般化することができる。
我々のtqdmはGTA5$\rightarrow$Cityscapes上で68.9 mIoUを達成した。
プロジェクトのページはhttps://byeonghyunpak.github.io/tqdm.comで公開されている。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - PromptTA: Prompt-driven Text Adapter for Source-free Domain Generalization [26.573088214233955]
ソースフリードメイン一般化(SFDG)は、ソースドメインデータにアクセスせずにターゲットドメインにモデルを適用するという課題に取り組む。
SFDGの最近の進歩は、主にCLIPのような視覚言語モデルのテキストモダリティの活用に焦点を当てている。
Prompt-Driven Text Adapter (PromptTA) 手法を提案する。この手法は,スタイル特徴の分布をより正確に把握し,ドメイン知識の網羅性を確保するために再サンプリングを利用する。
論文 参考訳(メタデータ) (2024-09-21T15:02:13Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Context-Aware Mixup for Domain Adaptive Semantic Segmentation [52.1935168534351]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインのモデルをラベル付きターゲットドメインに適応させることを目的としている。
ドメイン適応型セマンティックセグメンテーションのためのエンド・ツー・エンドコンテキスト・アウェア・ミックスアップ(CAMix)を提案する。
実験結果から,提案手法は最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2021-08-08T03:00:22Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Context-Aware Domain Adaptation in Semantic Segmentation [59.79348089240319]
セマンティックセグメンテーションにおける教師なしドメイン適応の問題を考える。
既存の手法は主に、敵対的学習を通じて、ドメイン不変の特徴(転送方法)を適応することに焦点を当てている。
本稿では,2つのドメイン間のコンテキスト依存性を捕捉し,転送可能なコンテキストに適応するための自己注意に基づく相互注意機構を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。