論文の概要: Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.15225v1
- Date: Thu, 18 Sep 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.403177
- Title: Lost in Translation? Vocabulary Alignment for Source-Free Domain Adaptation in Open-Vocabulary Semantic Segmentation
- Title(参考訳): 翻訳における損失 : オープンボキャブラリセマンティックセマンティックセグメンテーションにおける自由領域適応のための語彙アライメント
- Authors: Silvio Mazzucco, Carl Persson, Mattia Segu, Pier Luigi Dovesi, Federico Tombari, Luc Van Gool, Matteo Poggi,
- Abstract要約: VocAlignは、セマンティックセグメンテーションにおいてVLM用に特別に設計された、ソースフリーのドメイン適応フレームワークである。
提案手法は,CityScapesデータセットの6.11mIoU改善を実現し,ゼロショットセグメンテーションベンチマークにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 90.5844979560448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VocAlign, a novel source-free domain adaptation framework specifically designed for VLMs in open-vocabulary semantic segmentation. Our method adopts a student-teacher paradigm enhanced with a vocabulary alignment strategy, which improves pseudo-label generation by incorporating additional class concepts. To ensure efficiency, we use Low-Rank Adaptation (LoRA) to fine-tune the model, preserving its original capabilities while minimizing computational overhead. In addition, we propose a Top-K class selection mechanism for the student model, which significantly reduces memory requirements while further improving adaptation performance. Our approach achieves a notable 6.11 mIoU improvement on the CityScapes dataset and demonstrates superior performance on zero-shot segmentation benchmarks, setting a new standard for source-free adaptation in the open-vocabulary setting.
- Abstract(参考訳): オープン語彙セマンティックセマンティックセグメンテーションにおいて、VLM向けに特別に設計された新しいソースフリードメイン適応フレームワークであるVocAlignを紹介する。
本手法は,語彙アライメント戦略によって強化された学生-教師パラダイムを採用し,クラス概念を付加することで擬似ラベル生成を改善する。
効率性を確保するため、計算オーバーヘッドを最小限に抑えながら元の能力を保ちながらモデルを微調整するためにLoRA(Lo-Rank Adaptation)を用いる。
さらに,学習者モデルのTop-Kクラス選択機構を提案する。
提案手法は,CityScapesデータセットの6.11mIoU改善を実現し,ゼロショットセグメンテーションベンチマークにおいて優れた性能を示す。
関連論文リスト
- Semantic Library Adaptation: LoRA Retrieval and Fusion for Open-Vocabulary Semantic Segmentation [72.28364940168092]
オープン語彙セマンティックセグメンテーションモデルは、視覚とテキストを関連付け、テキストクエリを使用して未定義のクラスの集合からピクセルをラベル付けする。
本稿では,セマンティックライブラリ適応(Semantic Library Adaptation, SemLA)を紹介する。
論文 参考訳(メタデータ) (2025-03-27T17:59:58Z) - Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。
大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。
本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文 参考訳(メタデータ) (2025-01-29T13:24:53Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - An EM Framework for Online Incremental Learning of Semantic Segmentation [37.94734474090863]
本稿では,新しいクラスのみに画素アノテーションを付加したストリーミング入力データを用いて,大惨な忘れをせずに深いセグメンテーションモデルを適応できる漸進的な学習戦略を提案する。
PASCAL VOC 2012とADE20Kデータセットに対するアプローチを検証するとともに,既存のインクリメンタルメソッドよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-08T11:30:09Z) - Adapting Segmentation Networks to New Domains by Disentangling Latent
Representations [14.050836886292869]
ドメイン適応アプローチは、ラベルを持つソースドメインから取得した知識を関連するラベルを持つターゲットドメインに転送する役割を担っている。
本稿では,教師付きトレーニングと比較して適応戦略の相対的有効性を捉えるための新しい性能指標を提案する。
論文 参考訳(メタデータ) (2021-08-06T09:43:07Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal
and Clustered Embeddings [25.137859989323537]
本稿では,機能クラスタリング手法に基づく効果的なUnsupervised Domain Adaptation(UDA)戦略を提案する。
識別的クラスタリング性能を高めるために,2つの新しい学習目標を導入する。
論文 参考訳(メタデータ) (2020-11-25T10:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。