Fugu-MT 論文翻訳(概要): OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation

論文の概要: OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation

arxiv url: http://arxiv.org/abs/2405.20141v2
Date: Thu, 10 Oct 2024 17:32:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.053493
Title: OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation
Title（参考訳）: OpenDAS: セグメンテーションのためのオープン語彙ドメイン適応
Authors: Gonca Yilmaz, Songyou Peng, Marc Pollefeys, Francis Engelmann, Hermann Blum,
Abstract要約: 視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
参考スコア（独自算出の注目度）: 54.98688607911399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Vision-Language Models (VLMs) have advanced segmentation techniques by shifting from the traditional segmentation of a closed-set of predefined object classes to open-vocabulary segmentation (OVS), allowing users to segment novel classes and concepts unseen during training of the segmentation model. However, this flexibility comes with a trade-off: fully-supervised closed-set methods still outperform OVS methods on base classes, that is on classes on which they have been explicitly trained. This is due to the lack of pixel-aligned training masks for VLMs (which are trained on image-caption pairs), and the absence of domain-specific knowledge, such as autonomous driving. Therefore, we propose the task of open-vocabulary domain adaptation to infuse domain-specific knowledge into VLMs while preserving their open-vocabulary nature. By doing so, we achieve improved performance in base and novel classes. Existing VLM adaptation methods improve performance on base (training) queries, but fail to fully preserve the open-set capabilities of VLMs on novel queries. To address this shortcoming, we combine parameter-efficient prompt tuning with a triplet-loss-based training strategy that uses auxiliary negative queries. Notably, our approach is the only parameter-efficient method that consistently surpasses the original VLM on novel classes. Our adapted VLMs can seamlessly be integrated into existing OVS pipelines, e.g., improving OVSeg by +6.0% mIoU on ADE20K for open-vocabulary 2D segmentation, and OpenMask3D by +4.1% AP on ScanNet++ Offices for open-vocabulary 3D instance segmentation without other changes.
Abstract（参考訳）: 近年、VLM(Vision-Language Models)は、事前定義された対象クラスの閉集合の従来のセグメンテーションからオープンボキャブラリセグメンテーション(OVS)へ移行し、セグメンテーションモデルのトレーニング中に目に見えない新しいクラスや概念をセグメンテーションできる高度なセグメンテーション技術を持っている。しかし、この柔軟性にはトレードオフがある: 完全に教師されたクローズドセットメソッドは、ベースクラスでまだOVSメソッドよりも優れている。これは、VLM(イメージキャプションペアでトレーニングされている)用のピクセルアライントレーニングマスクが欠如していることと、自律運転のようなドメイン固有の知識が欠如していることによる。そこで本研究では,VLMにドメイン固有の知識を注入し,そのオープンな語彙特性を保ちながら,オープンな語彙領域適応の課題を提案する。これにより、ベースクラスと新規クラスのパフォーマンスが向上する。既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット機能を完全には維持できない。この欠点に対処するために、パラメータ効率のよいプロンプトチューニングと、補助的な負のクエリを使用するトリプルトロスベースのトレーニング戦略を組み合わせる。特に,本手法は,新しいクラスにおける元のVLMを常に上回るパラメータ効率の手法である。私たちの適応VLMは、オープン語彙2DセグメンテーションのためにADE20KでOVSegを+6.0% mIoUで改善し、オープン語彙3DセグメンテーションのためにScanNet++ Office上で+4.1% APでOpenMask3Dを+4.1% APで改善するなど、既存のOVSパイプラインにシームレスに統合することができます。

関連論文リスト

OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models [28.56745509698125]
オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。 OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2025-04-30T01:52:10Z)
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文参考訳（メタデータ） (2025-03-25T15:47:13Z)
VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文参考訳（メタデータ） (2024-12-12T12:49:42Z)
Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。 DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文参考訳（メタデータ） (2024-12-09T06:34:23Z)
Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。 OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文参考訳（メタデータ） (2024-10-15T12:11:41Z)
Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。本稿では,この制限に対処するためのFISA法を提案する。 FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文参考訳（メタデータ） (2023-12-12T19:00:04Z)
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文参考訳（メタデータ） (2023-11-28T06:42:58Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。