論文の概要: Object Style Diffusion for Generalized Object Detection in Urban Scene
- arxiv url: http://arxiv.org/abs/2412.13815v1
- Date: Wed, 18 Dec 2024 13:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:01.900995
- Title: Object Style Diffusion for Generalized Object Detection in Urban Scene
- Title(参考訳): 都市景観における汎用物体検出のためのオブジェクトスタイル拡散
- Authors: Hao Li, Xiangyuan Yang, Mengzhu Wang, Long Lan, Ke Liang, Xinwang Liu, Kenli Li,
- Abstract要約: 本稿では,GoDiffという新しい単一ドメインオブジェクト検出一般化手法を提案する。
擬似ターゲットドメインデータとソースドメインデータを統合することで、トレーニングデータセットを多様化する。
実験により,本手法は既存の検出器の一般化能力を高めるだけでなく,他の単一領域一般化手法のプラグ・アンド・プレイ拡張として機能することが示された。
- 参考スコア(独自算出の注目度): 69.04189353993907
- License:
- Abstract: Object detection is a critical task in computer vision, with applications in various domains such as autonomous driving and urban scene monitoring. However, deep learning-based approaches often demand large volumes of annotated data, which are costly and difficult to acquire, particularly in complex and unpredictable real-world environments. This dependency significantly hampers the generalization capability of existing object detection techniques. To address this issue, we introduce a novel single-domain object detection generalization method, named GoDiff, which leverages a pre-trained model to enhance generalization in unseen domains. Central to our approach is the Pseudo Target Data Generation (PTDG) module, which employs a latent diffusion model to generate pseudo-target domain data that preserves source domain characteristics while introducing stylistic variations. By integrating this pseudo data with source domain data, we diversify the training dataset. Furthermore, we introduce a cross-style instance normalization technique to blend style features from different domains generated by the PTDG module, thereby increasing the detector's robustness. Experimental results demonstrate that our method not only enhances the generalization ability of existing detectors but also functions as a plug-and-play enhancement for other single-domain generalization methods, achieving state-of-the-art performance in autonomous driving scenarios.
- Abstract(参考訳): 物体検出はコンピュータビジョンにおいて重要な課題であり、自律運転や都市環境監視といった様々な分野に応用されている。
しかし、ディープラーニングベースのアプローチでは、特に複雑で予測不可能な実環境において、大量の注釈付きデータを必要とすることが多い。
この依存関係は、既存のオブジェクト検出技術の一般化能力を著しく損なう。
この問題に対処するために,GoDiffと呼ばれる新しい単一ドメインオブジェクト検出一般化手法を導入する。
提案手法の中心はPseudo Target Data Generation (PTDG) モジュールである。このモジュールは遅延拡散モデルを用いて,スタイル変化を導入しながらソースドメイン特性を保存する擬似ターゲットドメインデータを生成する。
この擬似データをソースドメインデータと統合することにより、トレーニングデータセットを多様化する。
さらに、PTDGモジュールによって生成された異なるドメインからスタイル特徴をブレンドするクロススタイルのインスタンス正規化手法を導入し、検出器の堅牢性を高める。
実験により,本手法は既存の検出器の一般化能力を向上するだけでなく,他の単一領域の一般化手法のプラグ・アンド・プレイ・エンハンスメントとして機能し,自律運転シナリオにおける最先端性能を実現していることが示された。
関連論文リスト
- Improving Generalization Ability for 3D Object Detection by Learning Sparsity-invariant Features [21.761631081209263]
単一領域における3次元物体検出の一般化能力を向上させる手法を提案する。
1つのソースドメインから空間不変の特徴を学習するために、ソースデータを特定のビームに選択的にサブサンプリングする。
我々はまた、異なる点の雲の密度にBird’s Eye View機能を調整するために、教師学生のフレームワークも使用しています。
論文 参考訳(メタデータ) (2025-02-04T13:47:02Z) - GM-DF: Generalized Multi-Scenario Deepfake Detection [49.072106087564144]
既存の偽造検出は、通常、単一のドメインでのトレーニングモデルのパラダイムに従う。
本稿では,複数の顔偽造検出データセットを共同で訓練した場合のディープフェイク検出モデルの一般化能力について詳しく検討する。
論文 参考訳(メタデータ) (2024-06-28T17:42:08Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Domain Generalization of 3D Object Detection by Density-Resampling [14.510085711178217]
ポイントクラウドベースの3Dオブジェクト検出は、新しいドメインギャップを持つデータに遭遇する際のパフォーマンス劣化に悩まされる。
対象領域に対する3次元物体検出の一般化性を向上させるためのSDG法を提案する。
本研究では,新しいデータ拡張手法を導入し,その方法論に新しいマルチタスク学習戦略を貢献する。
論文 参考訳(メタデータ) (2023-11-17T20:01:29Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Domain Generalisation for Object Detection under Covariate and Concept Shift [10.32461766065764]
ドメインの一般化は、ドメイン固有の特徴を抑えながら、ドメイン不変の機能の学習を促進することを目的としている。
オブジェクト検出のためのドメイン一般化手法を提案し, オブジェクト検出アーキテクチャに適用可能な最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-10T11:14:18Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。