論文の概要: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2405.20141v1
- Date: Thu, 30 May 2024 15:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:48:54.965220
- Title: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation
- Title(参考訳): OpenDAS: Open-Vocabulary Segmentationのためのドメイン適応
- Authors: Gonca Yilmaz, Songyou Peng, Francis Engelmann, Marc Pollefeys, Hermann Blum,
- Abstract要約: オープン語彙セグメンテーションのための新しいタスクドメイン適応を導入する。
本稿では,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この結果は,オープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
- 参考スコア(独自算出の注目度): 54.98688607911399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Vision Language Models (VLMs) transformed image understanding from closed-set classifications to dynamic image-language interactions, enabling open-vocabulary segmentation. Despite this flexibility, VLMs often fall behind closed-set classifiers in accuracy due to their reliance on ambiguous image captions and lack of domain-specific knowledge. We, therefore, introduce a new task domain adaptation for open-vocabulary segmentation, enhancing VLMs with domain-specific priors while preserving their open-vocabulary nature. Existing adaptation methods, when applied to segmentation tasks, improve performance on training queries but can reduce VLM performance on zero-shot text inputs. To address this shortcoming, we propose an approach that combines parameter-efficient prompt tuning with a triplet-loss-based training strategy. This strategy is designed to enhance open-vocabulary generalization while adapting to the visual domain. Our results outperform other parameter-efficient adaptation strategies in open-vocabulary segment classification tasks across indoor and outdoor datasets. Notably, our approach is the only one that consistently surpasses the original VLM on zero-shot queries. Our adapted VLMs can be plug-and-play integrated into existing open-vocabulary segmentation pipelines, improving OV-Seg by +6.0% mIoU on ADE20K, and OpenMask3D by +4.1% AP on ScanNet++ Offices without any changes to the methods.
- Abstract(参考訳): 視覚言語モデル(VLM)の出現は、画像理解をクローズドセットの分類から動的画像言語相互作用に転換し、オープン語彙のセグメンテーションを可能にした。
このような柔軟性にもかかわらず、VLMは曖昧な画像キャプションへの依存とドメイン固有の知識の欠如により、クローズドセットの分類器の精度に遅れることが多い。
そこで我々はオープン語彙セグメンテーションのための新しいタスクドメイン適応を導入し,そのオープン語彙の性質を保ちながら,ドメイン固有のプリエントでVLMを強化した。
既存の適応手法では、セグメンテーションタスクに適用すると、訓練クエリのパフォーマンスが向上するが、ゼロショットテキスト入力におけるVLMの性能は低下する。
この問題に対処するために,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この戦略は、視覚領域に適応しながら、オープン語彙の一般化を強化するように設計されている。
本研究は,屋内および屋外のデータセットを対象としたオープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
特に、ゼロショットクエリで元のVLMを一貫して上回るアプローチは、我々のアプローチだけである。
我々の適応VLMは既存のオープン語彙セグメンテーションパイプラインにプラグイン・アンド・プレイできるため、ADE20KではOV-Segを+6.0% mIoU、ScanNet++ Officeでは+4.1% APでOpenMask3Dを+4.1%改善できる。
関連論文リスト
- VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction [80.67150791183126]
DenseVLMは、非バイアスの領域言語アライメントを、強力な事前学習型VLM表現から学習するためのフレームワークである。
我々は、DenseVLMをオープン語彙オブジェクト検出と画像分割タスクにシームレスに統合できることを示し、顕著な性能改善を実現した。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。
我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文 参考訳(メタデータ) (2024-10-15T12:11:41Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。