論文の概要: OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation
- arxiv url: http://arxiv.org/abs/2405.20141v4
- Date: Tue, 29 Oct 2024 23:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:22:54.765469
- Title: OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation
- Title(参考訳): OpenDAS: 2Dおよび3Dセグメンテーションのためのオープン語彙ドメイン適応
- Authors: Gonca Yilmaz, Songyou Peng, Marc Pollefeys, Francis Engelmann, Hermann Blum,
- Abstract要約: 視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
- 参考スコア(独自算出の注目度): 54.98688607911399
- License:
- Abstract: Recently, Vision-Language Models (VLMs) have advanced segmentation techniques by shifting from the traditional segmentation of a closed-set of predefined object classes to open-vocabulary segmentation (OVS), allowing users to segment novel classes and concepts unseen during training of the segmentation model. However, this flexibility comes with a trade-off: fully-supervised closed-set methods still outperform OVS methods on base classes, that is on classes on which they have been explicitly trained. This is due to the lack of pixel-aligned training masks for VLMs (which are trained on image-caption pairs), and the absence of domain-specific knowledge, such as autonomous driving. Therefore, we propose the task of open-vocabulary domain adaptation to infuse domain-specific knowledge into VLMs while preserving their open-vocabulary nature. By doing so, we achieve improved performance in base and novel classes. Existing VLM adaptation methods improve performance on base (training) queries, but fail to fully preserve the open-set capabilities of VLMs on novel queries. To address this shortcoming, we combine parameter-efficient prompt tuning with a triplet-loss-based training strategy that uses auxiliary negative queries. Notably, our approach is the only parameter-efficient method that consistently surpasses the original VLM on novel classes. Our adapted VLMs can seamlessly be integrated into existing OVS pipelines, e.g., improving OVSeg by +6.0% mIoU on ADE20K for open-vocabulary 2D segmentation, and OpenMask3D by +4.1% AP on ScanNet++ Offices for open-vocabulary 3D instance segmentation without other changes. The project page is available at https://open-das.github.io/.
- Abstract(参考訳): 近年、VLM(Vision-Language Models)は、事前定義された対象クラスの閉集合の従来のセグメンテーションからオープンボキャブラリセグメンテーション(OVS)へ移行し、セグメンテーションモデルのトレーニング中に目に見えない新しいクラスや概念をセグメンテーションできる高度なセグメンテーション技術を持っている。
しかし、この柔軟性にはトレードオフがある: 完全に教師されたクローズドセットメソッドは、ベースクラスでまだOVSメソッドよりも優れている。
これは、VLM(イメージキャプションペアでトレーニングされている)用のピクセルアライントレーニングマスクが欠如していることと、自律運転のようなドメイン固有の知識が欠如していることによる。
そこで本研究では,VLMにドメイン固有の知識を注入し,そのオープンな語彙特性を保ちながら,オープンな語彙領域適応の課題を提案する。
これにより、ベースクラスと新規クラスのパフォーマンスが向上する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット機能を完全には維持できない。
この欠点に対処するために、パラメータ効率のよいプロンプトチューニングと、補助的な負のクエリを使用するトリプルトロスベースのトレーニング戦略を組み合わせる。
特に,本手法は,新しいクラスにおける元のVLMを常に上回るパラメータ効率の手法である。
私たちの適応VLMは、オープン語彙2DセグメンテーションのためにADE20KでOVSegを+6.0% mIoUで改善し、オープン語彙3DセグメンテーションのためにScanNet++ Office上で+4.1% APでOpenMask3Dを+4.1% APで改善するなど、既存のOVSパイプラインにシームレスに統合することができます。
プロジェクトのページはhttps://open-das.github.io/.com/で公開されている。
関連論文リスト
- VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。
提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。
結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文 参考訳(メタデータ) (2024-12-12T12:49:42Z) - DenseVLM: A Retrieval and Decoupled Alignment Framework for Open-Vocabulary Dense Prediction [80.67150791183126]
DenseVLMは、非バイアスの領域言語アライメントを、強力な事前学習型VLM表現から学習するためのフレームワークである。
我々は、DenseVLMをオープン語彙オブジェクト検出と画像分割タスクにシームレスに統合できることを示し、顕著な性能改善を実現した。
論文 参考訳(メタデータ) (2024-12-09T06:34:23Z) - Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。
我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文 参考訳(メタデータ) (2024-10-15T12:11:41Z) - Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。
本稿では,この制限に対処するためのFISA法を提案する。
FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。
本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。
実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文 参考訳(メタデータ) (2023-12-12T19:00:04Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。