論文の概要: Lifelong Learning Using a Dynamically Growing Tree of Sub-networks for Domain Generalization in Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2405.19525v1
- Date: Wed, 29 May 2024 21:01:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 19:06:28.618527
- Title: Lifelong Learning Using a Dynamically Growing Tree of Sub-networks for Domain Generalization in Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションにおける領域一般化のためのサブネットの動的成長木を用いた生涯学習
- Authors: Islam Osman, Mohamed S. Shehata,
- Abstract要約: マルチドメインソースから効率的に忘れることを学ぶために,動的に成長するサブネットワークツリー(DGT)を提案する。
DGTは、学習済みのドメインを忘れることなく、モデルが新しいドメインから継続的に効果的に学習することを可能にする、新しい生涯学習技術を使用している。
- 参考スコア(独自算出の注目度): 3.228705131530002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art video object segmentation models have achieved great success using supervised learning with massive labeled training datasets. However, these models are trained using a single source domain and evaluated using videos sampled from the same source domain. When these models are evaluated using videos sampled from a different target domain, their performance degrades significantly due to poor domain generalization, i.e., their inability to learn from multi-domain sources simultaneously using traditional supervised learning. In this paper, We propose a dynamically growing tree of sub-networks (DGT) to learn effectively from multi-domain sources. DGT uses a novel lifelong learning technique that allows the model to continuously and effectively learn from new domains without forgetting the previously learned domains. Hence, the model can generalize to out-of-domain videos. The proposed work is evaluated using single-source in-domain (traditional video object segmentation), multi-source in-domain, and multi-source out-of-domain video object segmentation. The results of DGT show a single source in-domain performance gain of 0.2% and 3.5% on the DAVIS16 and DAVIS17 datasets, respectively. However, when DGT is evaluated using in-domain multi-sources, the results show superior performance compared to state-of-the-art video object segmentation and other lifelong learning techniques with an average performance increase in the F-score of 6.9% with minimal catastrophic forgetting. Finally, in the out-of-domain experiment, the performance of DGT is 2.7% and 4% better than state-of-the-art in 1 and 5-shots, respectively.
- Abstract(参考訳): 現在の最先端のビデオオブジェクトセグメンテーションモデルは、大量のラベル付きトレーニングデータセットを用いた教師あり学習を用いて大きな成功を収めている。
しかし、これらのモデルは単一のソースドメインを使用してトレーニングされ、同じソースドメインからサンプルされたビデオを使用して評価される。
これらのモデルが異なる対象領域からサンプリングされたビデオを用いて評価されると、それらの性能はドメインの一般化が貧弱なため著しく低下する。
本稿では,マルチドメインソースから効果的に学習するサブネットワーク(DGT)の動的成長木を提案する。
DGTは、学習済みのドメインを忘れることなく、モデルが新しいドメインから継続的に効果的に学習することを可能にする、新しい生涯学習技術を使用している。
したがって、モデルはドメイン外のビデオに一般化することができる。
提案手法は,シングルソース・イン・ドメイン(従来のビデオ・オブジェクト・セグメンテーション),マルチソース・イン・ドメイン,マルチソース・アウト・オブ・ドメイン・ビデオ・オブジェクト・セグメンテーションを用いて評価する。
DGTの結果は、DAVIS16データセットとDAVIS17データセットでそれぞれ0.2%と3.5%という、単一ソースのドメイン内パフォーマンス向上を示している。
しかし、DGTをドメイン内マルチソースを用いて評価すると、この結果は最先端のビデオオブジェクトセグメンテーションや他の生涯学習技術と比較して優れた性能を示し、Fスコアの平均的なパフォーマンスは6.9%、破滅的最小化は6.9%向上した。
最後に、ドメイン外実験では、DGTのパフォーマンスは、それぞれ1ショットと5ショットの最先端よりも2.7%、4%向上している。
関連論文リスト
- DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Benchmarking Multi-Domain Active Learning on Image Classification [16.690755621494215]
我々は、単一ソースデータと実世界のデータの間のギャップを埋めるために、マルチドメインアクティブラーニングベンチマークを導入する。
我々のベンチマークでは、従来の単一ドメインのアクティブな学習戦略は、多ドメインシナリオにおけるランダムな選択よりも効果が低いことが示されている。
私たちのベンチマーク分析では、すべてのマルチドメイン戦略が大きなトレードオフを示しており、すべてのデータセットやすべてのメトリクスよりも優れた戦略はありません。
論文 参考訳(メタデータ) (2023-12-01T06:11:14Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey [42.22801056661226]
行動認識などのビデオ分析タスクは、スマートヘルスケアなどの分野における応用の増大に対して、研究の関心が高まっている。
既存のデータセットでトレーニングされたビデオモデルは、現実世界のアプリケーションに直接デプロイした場合、大幅にパフォーマンスが低下する。
ラベル付きソースドメインからラベル付きターゲットドメインにビデオモデルを適用するために、ビデオアン教師付きドメイン適応(VUDA)が導入される。
論文 参考訳(メタデータ) (2022-11-17T05:05:42Z) - DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain
Adaptation [2.9407987406005263]
ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつです。
本稿では, VOSタスクに対向領域適応を導入することで, ドメインシフトに対処する新しい手法を提案する。
DAVIS2016では,教師付きトレーニング後のIoUスコアが82.6%であった。
論文 参考訳(メタデータ) (2021-05-21T08:23:51Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z) - Domain Adaptation for Learning Generator from Paired Few-Shot Data [72.04430033118426]
十分なソースデータと少数のターゲットデータを持つジェネレータを学習するためのペアドフェーショットGAN(PFS-GAN)モデルを提案する。
提案手法は,複数のベースラインと比較して,より多様性の高い生成対象ドメインデータに対して,定量的,定性的な結果が得られる。
論文 参考訳(メタデータ) (2021-02-25T10:11:44Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。