論文の概要: OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation
- arxiv url: http://arxiv.org/abs/2405.20141v4
- Date: Tue, 29 Oct 2024 23:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:54.765469
- Title: OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation
- Title(参考訳): OpenDAS: 2Dおよび3Dセグメンテーションのためのオープン語彙ドメイン適応
- Authors: Gonca Yilmaz, Songyou Peng, Marc Pollefeys, Francis Engelmann, Hermann Blum,
- Abstract要約: 視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
- 参考スコア(独自算出の注目度): 54.98688607911399
- License:
- Abstract: Recently, Vision-Language Models (VLMs) have advanced segmentation techniques by shifting from the traditional segmentation of a closed-set of predefined object classes to open-vocabulary segmentation (OVS), allowing users to segment novel classes and concepts unseen during training of the segmentation model. However, this flexibility comes with a trade-off: fully-supervised closed-set methods still outperform OVS methods on base classes, that is on classes on which they have been explicitly trained. This is due to the lack of pixel-aligned training masks for VLMs (which are trained on image-caption pairs), and the absence of domain-specific knowledge, such as autonomous driving. Therefore, we propose the task of open-vocabulary domain adaptation to infuse domain-specific knowledge into VLMs while preserving their open-vocabulary nature. By doing so, we achieve improved performance in base and novel classes. Existing VLM adaptation methods improve performance on base (training) queries, but fail to fully preserve the open-set capabilities of VLMs on novel queries. To address this shortcoming, we combine parameter-efficient prompt tuning with a triplet-loss-based training strategy that uses auxiliary negative queries. Notably, our approach is the only parameter-efficient method that consistently surpasses the original VLM on novel classes. Our adapted VLMs can seamlessly be integrated into existing OVS pipelines, e.g., improving OVSeg by +6.0% mIoU on ADE20K for open-vocabulary 2D segmentation, and OpenMask3D by +4.1% AP on ScanNet++ Offices for open-vocabulary 3D instance segmentation without other changes. The project page is available at https://open-das.github.io/.
- Abstract(参考訳): 近年、VLM(Vision-Language Models)は、事前定義された対象クラスの閉集合の従来のセグメンテーションからオープンボキャブラリセグメンテーション(OVS)へ移行し、セグメンテーションモデルのトレーニング中に目に見えない新しいクラスや概念をセグメンテーションできる高度なセグメンテーション技術を持っている。
しかし、この柔軟性にはトレードオフがある: 完全に教師されたクローズドセットメソッドは、ベースクラスでまだOVSメソッドよりも優れている。
これは、VLM(イメージキャプションペアでトレーニングされている)用のピクセルアライントレーニングマスクが欠如していることと、自律運転のようなドメイン固有の知識が欠如していることによる。
そこで本研究では,VLMにドメイン固有の知識を注入し,そのオープンな語彙特性を保ちながら,オープンな語彙領域適応の課題を提案する。
これにより、ベースクラスと新規クラスのパフォーマンスが向上する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット機能を完全には維持できない。
この欠点に対処するために、パラメータ効率のよいプロンプトチューニングと、補助的な負のクエリを使用するトリプルトロスベースのトレーニング戦略を組み合わせる。
特に,本手法は,新しいクラスにおける元のVLMを常に上回るパラメータ効率の手法である。
私たちの適応VLMは、オープン語彙2DセグメンテーションのためにADE20KでOVSegを+6.0% mIoUで改善し、オープン語彙3DセグメンテーションのためにScanNet++ Office上で+4.1% APでOpenMask3Dを+4.1% APで改善するなど、既存のOVSパイプラインにシームレスに統合することができます。
プロジェクトのページはhttps://open-das.github.io/.com/で公開されている。
関連論文リスト
- Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。
我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文 参考訳(メタデータ) (2024-10-15T12:11:41Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。
本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文 参考訳(メタデータ) (2023-11-28T06:42:58Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。