論文の概要: LangDA: Building Context-Awareness via Language for Domain Adaptive Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.12780v1
- Date: Mon, 17 Mar 2025 03:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:01:01.781514
- Title: LangDA: Building Context-Awareness via Language for Domain Adaptive Semantic Segmentation
- Title(参考訳): LangDA: ドメイン適応セマンティックセマンティックセグメンテーションのための言語によるコンテキスト認識の構築
- Authors: Chang Liu, Bavesh Balaji, Saad Hossain, C Thomas, Kwei-Herng Lai, Raviteja Vemulapalli, Alexander Wong, Sirisha Rambhatla,
- Abstract要約: セマンティックセグメンテーションのための教師なしドメイン適応は、ラベルに富んだソースドメインからラベルのないターゲットドメインに知識を伝達することを目的としている。
LangDAは、VLM生成シーン記述を通じてオブジェクト間のコンテキスト関係を学習することで、これらの課題に対処する。
LangDAは新しい最先端を3つのDASSベンチマークで設定し、既存の手法を2.6%、1.4%、および3.9%で上回っている。
- 参考スコア(独自算出の注目度): 69.13257545389781
- License:
- Abstract: Unsupervised domain adaptation for semantic segmentation (DASS) aims to transfer knowledge from a label-rich source domain to a target domain with no labels. Two key approaches in DASS are (1) vision-only approaches using masking or multi-resolution crops, and (2) language-based approaches that use generic class-wise prompts informed by target domain (e.g. "a {snowy} photo of a {class}"). However, the former is susceptible to noisy pseudo-labels that are biased to the source domain. The latter does not fully capture the intricate spatial relationships of objects -- key for dense prediction tasks. To this end, we propose LangDA. LangDA addresses these challenges by, first, learning contextual relationships between objects via VLM-generated scene descriptions (e.g. "a pedestrian is on the sidewalk, and the street is lined with buildings."). Second, LangDA aligns the entire image features with text representation of this context-aware scene caption and learns generalized representations via text. With this, LangDA sets the new state-of-the-art across three DASS benchmarks, outperforming existing methods by 2.6%, 1.4% and 3.9%.
- Abstract(参考訳): 意味的セグメンテーションのための教師なしドメイン適応(DASS)は、ラベルに富んだソースドメインからラベルのないターゲットドメインに知識を伝達することを目的としている。
DASSの2つの主要なアプローチは、(1)マスキングまたはマルチレゾリューション作物を用いた視覚のみのアプローチ、(2)ターゲットドメイン(例えば {class} の "a {snowy}" 写真)によって通知されるジェネリッククラスワイズプロンプトを使用する言語ベースのアプローチである。
しかし、前者は、ソースドメインに偏っているノイズの多い擬似ラベルの影響を受けやすい。
後者は、密集した予測タスクのキーとなる、オブジェクトの複雑な空間関係を完全には捉えない。
この目的のために,LangDAを提案する。
LangDAは、まず、VLM生成シーン記述を通じてオブジェクト間のコンテキスト的関係を学習することで、これらの課題に対処する(例:歩行者は歩道にあり、通りは建物が並んでいる)。
次に、LangDAは、画像機能全体と、このコンテキスト認識シーンキャプションのテキスト表現を整合させ、テキストを介して一般化された表現を学習する。
これにより、LangDAは新しい最先端を3つのDASSベンチマークで設定し、既存のメソッドを2.6%、1.4%、および3.9%で上回った。
関連論文リスト
- MoDA: Leveraging Motion Priors from Videos for Advancing Unsupervised Domain Adaptation in Semantic Segmentation [61.4598392934287]
本研究は、対象ドメインが未ラベルのビデオフレームを含む異なるUDAシナリオを紹介する。
我々は textbfMotion-guided textbfDomain textbfAdaptive semantic segmentation framework (MoDA) を設計する。
MoDAは、セグメンテーションタスクのクロスドメインアライメントを容易にするために、自己教師対象のモーションキューを利用する。
論文 参考訳(メタデータ) (2023-09-21T01:31:54Z) - Pulling Target to Source: A New Perspective on Domain Adaptive Semantic Segmentation [80.1412989006262]
ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としています。
我々はT2S-DAを提案し、T2S-DAはドメイン適応のためのソースにターゲットを引っ張る形式として解釈する。
論文 参考訳(メタデータ) (2023-05-23T07:09:09Z) - I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic
Segmentation [55.633859439375044]
意味的セグメンテーションのための教師なしドメイン適応(UDA)は、重いアノテーション作業から人々を解放する有望なタスクである。
この問題に対処する主要なアイデアは、画像レベルと特徴レベルの両方を共同で実行することである。
本稿では,画像レベルと特徴レベルを統一したセマンティックセグメンテーションのための新しいUDAパイプラインを提案する。
論文 参考訳(メタデータ) (2023-01-03T15:19:48Z) - HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic
Segmentation [13.87939140266266]
完全ラベル付きソースデータセットと少数のラベルしか持たないターゲットデータセットを用いて,LiDARセマンティックセマンティックセマンティクスネットワークをトレーニングする問題に対処する。
我々は、新しい画像から画像への変換エンジンを開発し、それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで、HYLDAと呼ばれる統合ドメイン適応アーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-01-14T18:13:09Z) - LoveDA: A Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic
Segmentation [7.629717457706323]
LoveDAデータセットには3つの都市から166個の注釈付きオブジェクトを持つ5987個のHSRイメージが含まれている。
LoveDAデータセットは、土地被覆セマンティックセグメンテーションと教師なしドメイン適応(UDA)タスクの両方に適している。
論文 参考訳(メタデータ) (2021-10-17T06:12:48Z) - Discover, Hallucinate, and Adapt: Open Compound Domain Adaptation for
Semantic Segmentation [91.30558794056056]
意味的セグメンテーションのための教師なしドメイン適応(UDA)が近年注目を集めている。
我々は,発見,幻覚,適応の3つの主要な設計原則に基づく新しいフレームワークを提案する。
我々は、標準ベンチマークGTAからC自動運転へのソリューションの評価を行い、新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-08T13:20:09Z) - mDALU: Multi-Source Domain Adaptation and Label Unification with Partial
Datasets [102.62639692656458]
本稿では,この課題をマルチソースドメイン適応とラベル統一の問題として扱う。
本手法は,部分教師あり適応段階と完全教師あり適応段階からなる。
本手法は,画像分類,2次元意味画像分割,ジョイント2d-3d意味セグメンテーションの3つのタスクで検証する。
論文 参考訳(メタデータ) (2020-12-15T15:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。