論文の概要: Towards Recognizing New Semantic Concepts in New Visual Domains
- arxiv url: http://arxiv.org/abs/2012.09058v1
- Date: Wed, 16 Dec 2020 16:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 02:55:43.653963
- Title: Towards Recognizing New Semantic Concepts in New Visual Domains
- Title(参考訳): 新しい視覚領域における新しい意味概念認識に向けて
- Authors: Massimiliano Mancini
- Abstract要約: 我々は、これまで見えない視覚領域で機能し、新しいセマンティックな概念を認識できるディープアーキテクチャを設計することが重要であると論じている。
論文の第1部では、深層モデルが新しいビジュアルドメインに一般化できるように、異なるソリューションについて記述する。
第2部では、事前訓練された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。
- 参考スコア(独自算出の注目度): 9.701036831490768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models heavily rely on large scale annotated datasets for
training. Unfortunately, datasets cannot capture the infinite variability of
the real world, thus neural networks are inherently limited by the restricted
visual and semantic information contained in their training set. In this
thesis, we argue that it is crucial to design deep architectures that can
operate in previously unseen visual domains and recognize novel semantic
concepts. In the first part of the thesis, we describe different solutions to
enable deep models to generalize to new visual domains, by transferring
knowledge from a labeled source domain(s) to a domain (target) where no labeled
data are available. We will show how variants of batch-normalization (BN) can
be applied to different scenarios, from domain adaptation when source and
target are mixtures of multiple latent domains, to domain generalization,
continuous domain adaptation, and predictive domain adaptation, where
information about the target domain is available only in the form of metadata.
In the second part of the thesis, we show how to extend the knowledge of a
pretrained deep model to new semantic concepts, without access to the original
training set. We address the scenarios of sequential multi-task learning, using
transformed task-specific binary masks, open-world recognition, with end-to-end
training and enforced clustering, and incremental class learning in semantic
segmentation, where we highlight and address the problem of the semantic shift
of the background class. In the final part, we tackle a more challenging
problem: given images of multiple domains and semantic categories (with their
attributes), how to build a model that recognizes images of unseen concepts in
unseen domains? We also propose an approach based on domain and semantic mixing
of inputs and features, which is a first, promising step towards solving this
problem.
- Abstract(参考訳): ディープラーニングモデルは、トレーニングのために大規模な注釈付きデータセットに大きく依存している。
残念ながら、データセットは現実世界の無限の変動を捉えられないため、ニューラルネットワークは本質的に、トレーニングセットに含まれる制限された視覚的および意味的な情報によって制限される。
この論文では、未確認の視覚領域で動作し、新しい意味概念を認識できる深層アーキテクチャを設計することが重要であると論じる。
論文の第1部では、ラベル付きソースドメインからラベル付きデータがないドメイン(ターゲット)に知識を転送することで、深層モデルを新たなビジュアルドメインに一般化するための、異なるソリューションについて記述する。
我々は、ソースとターゲットが複数の潜在ドメインの混合である場合のドメイン適応から、ドメインの一般化、連続的なドメイン適応、そして、ターゲットドメインに関する情報がメタデータの形でのみ利用できる予測的ドメイン適応まで、バッチ正規化(bn)の変種がどのように異なるシナリオに適用できるかを示す。
論文の第2部では、事前学習された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。
タスク固有のバイナリマスク,オープンワールド認識,エンドツーエンドのトレーニングとクラスタ化,セマンティックセグメンテーションにおけるインクリメンタルなクラス学習といった,逐次的マルチタスク学習のシナリオを取り上げ,背景クラスのセマンティックシフトの問題を強調し,対処する。
最後に、複数のドメインとセマンティックカテゴリのイメージ(属性を含む)が与えられた場合、目に見えないドメインの概念のイメージを認識するモデルをどのように構築するかという課題に取り組みます。
また、この問題を解決するための第一歩として、入力と特徴のドメインとセマンティックな混合に基づくアプローチを提案する。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Compositional Semantic Mix for Domain Adaptation in Point Cloud
Segmentation [65.78246406460305]
合成意味混合は、ポイントクラウドセグメンテーションのための最初の教師なし領域適応技術である。
本稿では、ソースドメイン(例えば合成)からの点雲とターゲットドメイン(例えば実世界)からの点雲を同時に処理できる2分岐対称ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T14:43:36Z) - Domain-invariant Prototypes for Semantic Segmentation [30.932130453313537]
ドメイン適応型セマンティックセグメンテーションのためのドメイン不変のプロトタイプを学習する。
本手法は,1段階の訓練のみを伴い,大規模な未注釈対象画像に対してトレーニングを行う必要はない。
論文 参考訳(メタデータ) (2022-08-12T02:21:05Z) - Few-Shot Object Detection in Unseen Domains [4.36080478413575]
Few-shot Object Detection (FSOD)は、データ制限のある新しいオブジェクトクラスを学ぶために近年発展している。
そこで本稿では,ドメイン固有の情報をすべて考慮し,新しいクラスを数枚追加する手法を提案する。
T-LESSデータセットを用いた実験により,提案手法はドメインギャップを著しく緩和することに成功した。
論文 参考訳(メタデータ) (2022-04-11T13:16:41Z) - Structured Latent Embeddings for Recognizing Unseen Classes in Unseen
Domains [108.11746235308046]
本稿では,異なる領域からの画像を投影することで,ドメインに依存しない遅延埋め込みを学習する手法を提案する。
挑戦的なDomainNetとDomainNet-LSベンチマークの実験は、既存のメソッドよりもアプローチの方が優れていることを示している。
論文 参考訳(メタデータ) (2021-07-12T17:57:46Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z) - Domain Adaptation for Semantic Parsing [68.81787666086554]
本稿では,ドメイン適応のための新しいセマンティクスを提案する。このセマンティクスでは,ソースドメインと比較して,対象ドメインのアノテーション付きデータがはるかに少ない。
我々のセマンティックな利点は、2段階の粗大なフレームワークから得ており、2段階の異なる正確な処理を提供できる。
ベンチマークデータセットの実験により、我々の手法はいくつかの一般的なドメイン適応戦略より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2020-06-23T14:47:41Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z) - Learning to adapt class-specific features across domains for semantic
segmentation [36.36210909649728]
本論文では,クラス情報毎に考慮し,ドメイン間の特徴を適応させることを学習する新しいアーキテクチャを提案する。
我々は最近導入されたStarGANアーキテクチャを画像翻訳のバックボーンとして採用している。
論文 参考訳(メタデータ) (2020-01-22T23:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。