論文の概要: Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization
- arxiv url: http://arxiv.org/abs/2402.18447v1
- Date: Wed, 28 Feb 2024 16:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 14:29:16.485419
- Title: Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization
- Title(参考訳): 単ドメイン一般化のためのプロンプト駆動動的オブジェクト中心学習
- Authors: Deng Li, Aming Wu, Yaowei Wang and Yahong Han
- Abstract要約: 単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
- 参考スコア(独自算出の注目度): 61.64304227831361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-domain generalization aims to learn a model from single source domain
data to achieve generalized performance on other unseen target domains.
Existing works primarily focus on improving the generalization ability of
static networks. However, static networks are unable to dynamically adapt to
the diverse variations in different image scenes, leading to limited
generalization capability. Different scenes exhibit varying levels of
complexity, and the complexity of images further varies significantly in
cross-domain scenarios. In this paper, we propose a dynamic object-centric
perception network based on prompt learning, aiming to adapt to the variations
in image complexity. Specifically, we propose an object-centric gating module
based on prompt learning to focus attention on the object-centric features
guided by the various scene prompts. Then, with the object-centric gating
masks, the dynamic selective module dynamically selects highly correlated
feature regions in both spatial and channel dimensions enabling the model to
adaptively perceive object-centric relevant features, thereby enhancing the
generalization capability. Extensive experiments were conducted on
single-domain generalization tasks in image classification and object
detection. The experimental results demonstrate that our approach outperforms
state-of-the-art methods, which validates the effectiveness and generally of
our proposed method.
- Abstract(参考訳): 単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
既存の作業は主に静的ネットワークの一般化能力の改善に重点を置いている。
しかし、静的ネットワークは異なる画像シーンの多様なバリエーションに動的に適応できないため、一般化能力は限られている。
異なるシーンは様々なレベルの複雑さを示し、画像の複雑さはクロスドメインシナリオで大きく変化する。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
具体的には,様々なシーンプロンプトによって誘導されるオブジェクト中心の特徴に注目し,プロンプト学習に基づくオブジェクト中心ゲーティングモジュールを提案する。
そして、オブジェクト中心のゲーティングマスクを用いて、動的選択モジュールは、モデルがオブジェクト中心の関連する特徴を適応的に知覚し、一般化能力を高めることができるように、空間次元およびチャネル次元の高度に相関した特徴領域を動的に選択する。
画像分類と物体検出における単一領域一般化タスクについて広範な実験を行った。
実験結果から,提案手法の有効性と汎用性を検証した最先端手法よりも高い性能を示した。
関連論文リスト
- GOOD: Towards Domain Generalized Orientated Object Detection [39.76969237020444]
オブジェクト指向物体検出はここ数年で急速に発展してきたが、これらの手法のほとんどは、トレーニングとテスト画像は同じ統計分布下にあると仮定している。
本稿では,任意の対象領域上でのオブジェクト指向物体検出の一般化を探求する領域一般化オブジェクト指向物体検出の課題を提案する。
論文 参考訳(メタデータ) (2024-02-20T07:12:22Z) - HCVP: Leveraging Hierarchical Contrastive Visual Prompt for Domain
Generalization [69.33162366130887]
ドメイン一般化(DG)は、不変の機能を学ぶことによって、目に見えないシナリオに優れた機械学習モデルを作成するための取り組みである。
モデルにドメインレベルとタスク固有の特性を補足する新しい手法を提案する。
このアプローチは、特定の特徴から不変な特徴をより効果的に分離し、一般化を促進することを目的としている。
論文 参考訳(メタデータ) (2024-01-18T04:23:21Z) - Aligning and Prompting Everything All at Once for Universal Visual
Perception [79.96124061108728]
APEは、さまざまなタスクを実行するために、すべてのことを一度に調整し、促す、普遍的な視覚知覚モデルである。
APEは、言語誘導接地をオープン語彙検出として再構成することで、検出と接地の収束を推し進める。
160以上のデータセットの実験では、APEが最先端のモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-04T18:59:50Z) - Single Domain Dynamic Generalization for Iris Presentation Attack
Detection [41.126916126040655]
アイリスプレゼンテーションの一般化はドメイン内の設定では大きな成功を収めたが、目に見えないドメインでは容易に分解できる。
本稿では,ドメイン不変性とドメイン固有性を利用した単一ドメイン動的一般化(SDDG)フレームワークを提案する。
提案手法は有効であり,LivDet-Iris 2017データセットの最先端性を上回っている。
論文 参考訳(メタデータ) (2023-05-22T07:54:13Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - Multi-modal Visual Place Recognition in Dynamics-Invariant Perception
Space [23.43468556831308]
このレターは、動的環境における位置認識を改善するために、意味的および視覚的モダリティのマルチモーダル融合の使用を探求する。
これを実現するには、まず静的セマンティックセグメンテーションを生成するための新しいディープラーニングアーキテクチャを設計します。
次に,空間的ピラミドマッチングモデルを用いて,静的意味セグメンテーションを特徴ベクトルに符号化する。
並行して、静的なイメージは人気のあるbag-of-wordsモデルを使ってエンコードされる。
論文 参考訳(メタデータ) (2021-05-17T13:14:52Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Generalizable Model-agnostic Semantic Segmentation via Target-specific
Normalization [24.14272032117714]
一般化可能なセマンティックセグメンテーションタスクのための新しいドメイン一般化フレームワークを提案する。
モデルに依存しない学習を利用してドメインシフト問題をシミュレートする。
観測対象領域と観測対象領域間のデータ分散の相違を考慮し、目標固有正規化方式を開発する。
論文 参考訳(メタデータ) (2020-03-27T09:25:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。