Fugu-MT 論文翻訳(概要): OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation

論文の概要: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation

arxiv url: http://arxiv.org/abs/2405.20141v1
Date: Thu, 30 May 2024 15:16:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 13:48:54.965220
Title: OpenDAS: Domain Adaptation for Open-Vocabulary Segmentation
Title（参考訳）: OpenDAS: Open-Vocabulary Segmentationのためのドメイン適応
Authors: Gonca Yilmaz, Songyou Peng, Francis Engelmann, Marc Pollefeys, Hermann Blum,
Abstract要約: オープン語彙セグメンテーションのための新しいタスクドメイン適応を導入する。本稿では,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。この結果は,オープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。
参考スコア（独自算出の注目度）: 54.98688607911399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Vision Language Models (VLMs) transformed image understanding from closed-set classifications to dynamic image-language interactions, enabling open-vocabulary segmentation. Despite this flexibility, VLMs often fall behind closed-set classifiers in accuracy due to their reliance on ambiguous image captions and lack of domain-specific knowledge. We, therefore, introduce a new task domain adaptation for open-vocabulary segmentation, enhancing VLMs with domain-specific priors while preserving their open-vocabulary nature. Existing adaptation methods, when applied to segmentation tasks, improve performance on training queries but can reduce VLM performance on zero-shot text inputs. To address this shortcoming, we propose an approach that combines parameter-efficient prompt tuning with a triplet-loss-based training strategy. This strategy is designed to enhance open-vocabulary generalization while adapting to the visual domain. Our results outperform other parameter-efficient adaptation strategies in open-vocabulary segment classification tasks across indoor and outdoor datasets. Notably, our approach is the only one that consistently surpasses the original VLM on zero-shot queries. Our adapted VLMs can be plug-and-play integrated into existing open-vocabulary segmentation pipelines, improving OV-Seg by +6.0% mIoU on ADE20K, and OpenMask3D by +4.1% AP on ScanNet++ Offices without any changes to the methods.
Abstract（参考訳）: 視覚言語モデル(VLM)の出現は、画像理解をクローズドセットの分類から動的画像言語相互作用に転換し、オープン語彙のセグメンテーションを可能にした。このような柔軟性にもかかわらず、VLMは曖昧な画像キャプションへの依存とドメイン固有の知識の欠如により、クローズドセットの分類器の精度に遅れることが多い。そこで我々はオープン語彙セグメンテーションのための新しいタスクドメイン適応を導入し,そのオープン語彙の性質を保ちながら,ドメイン固有のプリエントでVLMを強化した。既存の適応手法では、セグメンテーションタスクに適用すると、訓練クエリのパフォーマンスが向上するが、ゼロショットテキスト入力におけるVLMの性能は低下する。この問題に対処するために,パラメータ効率のよいプロンプトチューニングと三重奏法に基づくトレーニング戦略を組み合わせたアプローチを提案する。この戦略は、視覚領域に適応しながら、オープン語彙の一般化を強化するように設計されている。本研究は,屋内および屋外のデータセットを対象としたオープン語彙セグメント分類タスクにおいて,他のパラメータ効率適応手法よりも優れていた。特に、ゼロショットクエリで元のVLMを一貫して上回るアプローチは、我々のアプローチだけである。我々の適応VLMは既存のオープン語彙セグメンテーションパイプラインにプラグイン・アンド・プレイできるため、ADE20KではOV-Segを+6.0% mIoU、ScanNet++ Officeでは+4.1% APでOpenMask3Dを+4.1%改善できる。

関連論文リスト

OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models [28.56745509698125]
オープンボキャブラリ・オーディオ・ビジュアル(AVS)のプロキシとしてテキストを用いて音声と視覚のモダリティを調整するための訓練不要な言語ベースのアプローチであるOpenAVSを提案する。 OpenAVSは,1)音声からテキストへのプロンプト生成,2)LLM誘導のプロンプト翻訳,3)テキストから視覚への音声合成オブジェクトセグメンテーションを通じてマスクを推論する。既存の教師なし、ゼロショット、少数ショットのAVSメソッドをかなり上回り、mIoUとFスコアでそれぞれ9.4%と10.9%の絶対的なパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2025-04-30T01:52:10Z)
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文参考訳（メタデータ） (2025-03-25T15:47:13Z)
VLMs meet UDA: Boosting Transferability of Open Vocabulary Segmentation with Unsupervised Domain Adaptation [3.776249047528669]
本稿では、ビジョンランゲージ推論と教師なしドメイン適応(UDA)の鍵戦略を統合することにより、多様なドメイン間のセグメンテーション精度を向上させることを提案する。提案したFROVSS(Foundational-Retaining Open Vocabulary)フレームワークにおいて,VLMの細粒度セグメンテーション機能の改善を,マルチスケールのコンテキストデータ,即時拡張による堅牢なテキスト埋め込み,レイヤワイズ微調整により実現した。結果として生じるUDA-FROVフレームワークは、共有カテゴリを必要とせずにドメイン間で効果的に適応する最初のUDAアプローチである。
論文参考訳（メタデータ） (2024-12-12T12:49:42Z)
Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction [80.67150791183126]
事前訓練された視覚言語モデル(VLM)は、印象的なゼロショット認識能力を示したが、それでも高密度予測タスクでは性能が劣っている。提案するDenseVLMは,非バイアスの領域言語アライメントを,強力な事前学習型VLM表現から学習するためのフレームワークである。 DenseVLMは、オープン語彙オブジェクト検出および画像分割法において、元のVLMを直接置き換えることができることを示す。
論文参考訳（メタデータ） (2024-12-09T06:34:23Z)
Overcoming Domain Limitations in Open-vocabulary Segmentation [24.169403141373927]
Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。 OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
論文参考訳（メタデータ） (2024-10-15T12:11:41Z)
Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。本稿では,この制限に対処するためのFISA法を提案する。 FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor [18.288738950822342]
マスクラベルは労働集約的であり、セグメンテーションデータセットのカテゴリ数を制限する。本稿では,無関係なテキストを段階的にフィルタリングし,トレーニングを伴わずにマスク品質を向上させる新しい繰り返しフレームワークを提案する。実験の結果,本手法はトレーニング不要の手法だけでなく,何百万ものデータサンプルを微調整した手法よりも優れていた。
論文参考訳（メタデータ） (2023-12-12T19:00:04Z)
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models [44.146292819267956]
大規模視覚言語モデル(VLM)は、画像領域と単語を暗黙的に関連付けることを学び、視覚的問題のようなタスクに有効である。本稿では,OVSS(Plug-and-Play-Vocabulary Semantic)を提案する。
論文参考訳（メタデータ） (2023-11-28T06:42:58Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
Towards Realistic Zero-Shot Classification via Self Structural Semantic Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-24T17:56:46Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文参考訳（メタデータ） (2022-11-02T03:38:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。