論文の概要: Overcoming Domain Limitations in Open-vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2410.11536v1
- Date: Tue, 15 Oct 2024 12:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:12.269328
- Title: Overcoming Domain Limitations in Open-vocabulary Segmentation
- Title(参考訳): Open-vocabulary Segmentationにおけるドメイン制限の克服
- Authors: Dongjun Hwang, Seong Joon Oh, Junsuk Choe,
- Abstract要約: Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用されると、大幅なパフォーマンス低下を示す。
我々は,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学ぶことができる方法を提案する。
- 参考スコア(独自算出の注目度): 24.169403141373927
- License:
- Abstract: Open-vocabulary segmentation (OVS) has gained attention for its ability to recognize a broader range of classes. However, OVS models show significant performance drops when applied to unseen domains beyond the previous training dataset. Fine-tuning these models on new datasets can improve performance, but often leads to the catastrophic forgetting of previously learned knowledge. To address this issue, we propose a method that allows OVS models to learn information from new domains while preserving prior knowledge. Our approach begins by evaluating the input sample's proximity to multiple domains, using precomputed multivariate normal distributions for each domain. Based on this prediction, we dynamically interpolate between the weights of the pre-trained decoder and the fine-tuned decoders. Extensive experiments demonstrate that this approach allows OVS models to adapt to new domains while maintaining performance on the previous training dataset. The source code is available at https://github.com/dongjunhwang/dwi.
- Abstract(参考訳): Open-vocabulary segmentation (OVS)は、幅広いクラスを認識する能力に注目を集めている。
しかし、OVSモデルは、以前のトレーニングデータセットを超えて、目に見えないドメインに適用した場合、大幅なパフォーマンス低下を示す。
これらのモデルを新しいデータセットで微調整することで、パフォーマンスが向上するが、多くの場合、これまで学習された知識を破滅的に忘れてしまう。
そこで本研究では,OVSモデルが事前知識を維持しつつ,新たなドメインから情報を学習できるようにする手法を提案する。
提案手法は,各領域に対する事前計算された多変量正規分布を用いて,入力サンプルの複数の領域への近接性を評価することから始まる。
この予測に基づいて,プレトレーニングデコーダの重みと微調整デコーダの重みを動的に補間する。
大規模な実験では、OVSモデルが以前のトレーニングデータセットのパフォーマンスを維持しながら、新しいドメインに適応できることが示されている。
ソースコードはhttps://github.com/dongjunhwang/dwi.comで入手できる。
関連論文リスト
- OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Multivariate Prototype Representation for Domain-Generalized Incremental
Learning [35.83706574551515]
我々は、古いクラスを記憶し、新しいクラスに適応し、見えないドメインから確実にオブジェクトを分類できるDGCILアプローチを設計する。
我々の損失定式化は、分類境界を維持し、各クラスのドメイン固有情報を抑圧する。
論文 参考訳(メタデータ) (2023-09-24T06:42:04Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Universal Representation Learning from Multiple Domains for Few-shot
Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。
より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文 参考訳(メタデータ) (2021-03-25T13:49:12Z) - A Batch Normalization Classifier for Domain Adaptation [0.0]
トレーニングセット外の予期せぬデータにモデルを適応させることは、新しいアプローチを動機づけ続ける一般的な問題である。
本研究では,ソフトマックスアクティベーション前の出力層におけるバッチ正規化の適用により,改良されたResNetモデルにおける視覚データ領域間の一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-03-22T08:03:44Z) - $n$-Reference Transfer Learning for Saliency Prediction [73.17061116358036]
本稿では,サリエンシ予測のための数発のトランスファー学習パラダイムを提案する。
提案するフレームワークは勾配ベースでモデルに依存しない。
その結果,提案フレームワークは大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2020-07-09T23:20:44Z) - Unsupervised Intra-domain Adaptation for Semantic Segmentation through
Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。
この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。
ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T15:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。