論文の概要: OVS Meets Continual Learning: Towards Sustainable Open-Vocabulary Segmentation
- arxiv url: http://arxiv.org/abs/2410.11536v2
- Date: Mon, 13 Oct 2025 11:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:07.954866
- Title: OVS Meets Continual Learning: Towards Sustainable Open-Vocabulary Segmentation
- Title(参考訳): OVSが継続的な学習 - 持続可能なオープンボキャブラリセグメンテーションを目指して
- Authors: Dongjun Hwang, Yejin Kim, Minyoung Lee, Seong Joon Oh, Junsuk Choe,
- Abstract要約: Open-Vocabulary (OVS)は、トレーニングデータセットに存在しないクラスをセグメントすることを目的としている。
本研究では,Mixture-of-Expertsフレームワークに基づく新しい連続学習手法であるConOVSを提案する。
ConOVSは、事前トレーニング、インクリメンタル、ゼロショットテストデータセットで、既存のメソッドを一貫して上回ります。
- 参考スコア(独自算出の注目度): 26.018655577919617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Segmentation (OVS) aims to segment classes that are not present in the training dataset. However, most existing studies assume that the training data is fixed in advance, overlooking more practical scenarios where new datasets are continuously collected over time. To address this, we first analyze how existing OVS models perform under such conditions. In this context, we explore several approaches such as retraining, fine-tuning, and continual learning but find that each of them has clear limitations. To address these issues, we propose ConOVS, a novel continual learning method based on a Mixture-of-Experts framework. ConOVS dynamically combines expert decoders based on the probability that an input sample belongs to the distribution of each incremental dataset. Through extensive experiments, we show that ConOVS consistently outperforms existing methods across pre-training, incremental, and zero-shot test datasets, effectively expanding the recognition capabilities of OVS models when data is collected sequentially.
- Abstract(参考訳): Open-Vocabulary Segmentation (OVS)は、トレーニングデータセットに存在しないクラスをセグメントすることを目的としている。
しかし、既存の研究の多くは、トレーニングデータが事前に固定されていると考えており、新しいデータセットが時間とともに継続的に収集される、より実践的なシナリオを見越している。
この問題に対処するために、我々はまず既存のOVSモデルがどのように機能するかを分析する。
この文脈では、リトレーニング、微調整、継続学習といったいくつかのアプローチを探求するが、それぞれに明確な制限がある。
このような問題に対処するために,Mixture-of-Expertsフレームワークに基づく新しい連続学習手法であるConOVSを提案する。
ConOVSは、入力サンプルが各インクリメンタルデータセットの分布に属する確率に基づいて、エキスパートデコーダを動的に結合する。
大規模な実験を通じて、ConOVSはトレーニング済み、インクリメンタル、ゼロショットテストデータセットで既存のメソッドを一貫して上回り、データが順次収集された場合、OVSモデルの認識能力を効果的に拡張することを示した。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - ReME: A Data-Centric Framework for Training-Free Open-Vocabulary Segmentation [18.666044903856363]
トレーニングフリーなオープン語彙セマンティックセマンティックセマンティクス(OVS)は、任意のテキストカテゴリのセットが与えられた画像を、コストのかかるモデル微調整なしで分割することを目的としている。
本稿では,データパイプラインを組み込んだデータ品質指向フレームワークを提案する。
本手法は既存のトレーニング不要なOVSアプローチよりも優れており,トレーニングなしでOVSを前進させるためのデータ中心設計の重要性を強調している。
論文 参考訳(メタデータ) (2025-06-26T13:22:03Z) - Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning [64.1745161657794]
ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。
プレトレーニングモデルの最近の進歩は、DILの確かな基盤を提供する。
しかし、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。
本稿では,歴史的知識の統一と統合を図るために,デュアルコンソリデータティオン(ドゥクト)を提案する。
論文 参考訳(メタデータ) (2024-10-01T17:58:06Z) - Embedding And Clustering Your Data Can Improve Contrastive Pretraining [0.0]
我々は、事前訓練されたテキスト埋め込みモデルと古典的なk-meansクラスタリングアルゴリズムを活用することにより、ソースの粒度を超えてトレーニングデータ層を拡大することを検討する。
MSMARCOトランジッション検索データセットからBERTベースのテキスト埋め込みモデルをクエリパスペア上で事前学習する場合,NDCG@10の顕著な増加が観察された。
論文 参考訳(メタデータ) (2024-07-26T17:36:40Z) - OpenDAS: Open-Vocabulary Domain Adaptation for 2D and 3D Segmentation [54.98688607911399]
視覚言語モデル(VLM)にドメイン固有の知識を注入するオープン語彙ドメイン適応の課題を提案する。
既存のVLM適応手法では、ベース(トレーニング)クエリのパフォーマンスが向上するが、新しいクエリ上でのVLMのオープンセット能力を維持できない。
我々のアプローチは、新しいクラスにおける元のVLMを一貫して上回るパラメータ効率の手法である。
論文 参考訳(メタデータ) (2024-05-30T15:16:06Z) - Contrastive Continual Multi-view Clustering with Filtered Structural
Fusion [57.193645780552565]
ビューが事前に収集されるアプリケーションでは、マルチビュークラスタリングが成功します。
データビューがシーケンシャルに収集されるシナリオ、すなわちリアルタイムデータを見落としている。
いくつかの方法が提案されているが、安定塑性ジレンマに閉じ込められている。
フィルタ構造融合を用いたコントラスト連続多視点クラスタリングを提案する。
論文 参考訳(メタデータ) (2023-09-26T14:18:29Z) - Multivariate Prototype Representation for Domain-Generalized Incremental
Learning [35.83706574551515]
我々は、古いクラスを記憶し、新しいクラスに適応し、見えないドメインから確実にオブジェクトを分類できるDGCILアプローチを設計する。
我々の損失定式化は、分類境界を維持し、各クラスのドメイン固有情報を抑圧する。
論文 参考訳(メタデータ) (2023-09-24T06:42:04Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Continual Vision-Language Representation Learning with Off-Diagonal
Information [112.39419069447902]
CLIPのようなマルチモーダルなコントラスト学習フレームワークは通常、トレーニングに大量の画像テキストサンプルを必要とする。
本稿では,ストリーミングデータを用いた連続CLIPトレーニングの実現可能性について論じる。
論文 参考訳(メタデータ) (2023-05-11T08:04:46Z) - A Distinct Unsupervised Reference Model From The Environment Helps
Continual Learning [5.332329421663282]
Open-Set Semi-Supervised Continual Learning (OSSCL)は、より現実的な半教師付き連続学習環境である。
i) 参照ネットワークは、未ラベルサンプルの幅広いスペクトルを用いて、環境における汎用的およびタスク非依存的な知識をキャプチャし、(ii) 学習者ネットワークは、教師付きサンプルを利用してタスク固有表現を学習するように設計されている。
論文 参考訳(メタデータ) (2023-01-11T15:05:36Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - Multiband VAE: Latent Space Partitioning for Knowledge Consolidation in
Continual Learning [14.226973149346883]
従来を忘れずに新しいデータサンプルに関する知識を取得することは、継続的な学習の重要な問題である。
本稿では,変分オートエンコーダの潜伏空間の分割に依存する生成モデルにおける教師なし連続的知識統合手法を提案する。
標準連続学習評価ベンチマークに基づいて,本手法を新たな知識統合シナリオで評価し,提案手法が最先端の2倍に向上することを示す。
論文 参考訳(メタデータ) (2021-06-23T06:58:40Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - A Procedural World Generation Framework for Systematic Evaluation of
Continual Learning [2.599882743586164]
都会のシーンのフラグメントのみを描画するコンピュータグラフィックスシミュレーションフレームワークを提案する。
中心となるのは、適応可能な生成因子を持つモジュラーパラメトリック生成モデルである。
論文 参考訳(メタデータ) (2021-06-04T16:31:43Z) - Universal Representation Learning from Multiple Domains for Few-shot
Classification [41.821234589075445]
複数の個別に訓練されたネットワークの知識を蒸留し,一組の普遍的な深層表現を学習することを提案する。
より効率的な適応ステップにより、未確認領域に対する普遍表現をさらに洗練できることが示される。
論文 参考訳(メタデータ) (2021-03-25T13:49:12Z) - A Batch Normalization Classifier for Domain Adaptation [0.0]
トレーニングセット外の予期せぬデータにモデルを適応させることは、新しいアプローチを動機づけ続ける一般的な問題である。
本研究では,ソフトマックスアクティベーション前の出力層におけるバッチ正規化の適用により,改良されたResNetモデルにおける視覚データ領域間の一般化が向上することを示す。
論文 参考訳(メタデータ) (2021-03-22T08:03:44Z) - $n$-Reference Transfer Learning for Saliency Prediction [73.17061116358036]
本稿では,サリエンシ予測のための数発のトランスファー学習パラダイムを提案する。
提案するフレームワークは勾配ベースでモデルに依存しない。
その結果,提案フレームワークは大幅な性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2020-07-09T23:20:44Z) - Unsupervised Intra-domain Adaptation for Semantic Segmentation through
Self-Supervision [73.76277367528657]
畳み込みニューラルネットワークに基づくアプローチは、セマンティックセグメンテーションにおいて顕著な進歩を遂げた。
この制限に対処するために、グラフィックエンジンから生成された注釈付きデータを使用してセグメンテーションモデルをトレーニングする。
ドメイン間およびドメイン間ギャップを最小化する2段階の自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T15:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。