論文の概要: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2405.20141v1
- Date: Thu, 30 May 2024 15:16:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:48:54.965220
- Title: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation
- Title(参考訳): OpenDAS: Open-Vocabulary Segmentationのためのドメイン適応
- Authors: Gonca Yilmaz, Songyou Peng, Francis Engelmann, Marc Pollefeys, Hermann Blum,
- Abstract要約: オープン語彙セグメンテーションのための新しいタスクドメイン適応を導入する。
本稿では,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この結果は,オープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
- 参考スコア(独自算出の注目度): 54.98688607911399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Vision Language Models (VLMs) transformed image understanding from closed-set classifications to dynamic image-language interactions, enabling open-vocabulary segmentation. Despite this flexibility, VLMs often fall behind closed-set classifiers in accuracy due to their reliance on ambiguous image captions and lack of domain-specific knowledge. We, therefore, introduce a new task domain adaptation for open-vocabulary segmentation, enhancing VLMs with domain-specific priors while preserving their open-vocabulary nature. Existing adaptation methods, when applied to segmentation tasks, improve performance on training queries but can reduce VLM performance on zero-shot text inputs. To address this shortcoming, we propose an approach that combines parameter-efficient prompt tuning with a triplet-loss-based training strategy. This strategy is designed to enhance open-vocabulary generalization while adapting to the visual domain. Our results outperform other parameter-efficient adaptation strategies in open-vocabulary segment classification tasks across indoor and outdoor datasets. Notably, our approach is the only one that consistently surpasses the original VLM on zero-shot queries. Our adapted VLMs can be plug-and-play integrated into existing open-vocabulary segmentation pipelines, improving OV-Seg by +6.0% mIoU on ADE20K, and OpenMask3D by +4.1% AP on ScanNet++ Offices without any changes to the methods.
- Abstract(参考訳): 視覚言語モデル(VLM)の出現は、画像理解をクローズドセットの分類から動的画像言語相互作用に転換し、オープン語彙のセグメンテーションを可能にした。
このような柔軟性にもかかわらず、VLMは曖昧な画像キャプションへの依存とドメイン固有の知識の欠如により、クローズドセットの分類器の精度に遅れることが多い。
そこで我々はオープン語彙セグメンテーションのための新しいタスクドメイン適応を導入し,そのオープン語彙の性質を保ちながら,ドメイン固有のプリエントでVLMを強化した。
既存の適応手法では、セグメンテーションタスクに適用すると、訓練クエリのパフォーマンスが向上するが、ゼロショットテキスト入力におけるVLMの性能は低下する。
この問題に対処するために,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。
この戦略は、視覚領域に適応しながら、オープン語彙の一般化を強化するように設計されている。
本研究は,屋内および屋外のデータセットを対象としたオープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
特に、ゼロショットクエリで元のVLMを一貫して上回るアプローチは、我々のアプローチだけである。
我々の適応VLMは既存のオープン語彙セグメンテーションパイプラインにプラグイン・アンド・プレイできるため、ADE20KではOV-Segを+6.0% mIoU、ScanNet++ Officeでは+4.1% APでOpenMask3Dを+4.1%改善できる。
関連論文リスト
- Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。
我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文 参考訳(メタデータ) (2024-10-15T12:11:41Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。