論文の概要: C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
- arxiv url: http://arxiv.org/abs/2509.00578v3
- Date: Tue, 09 Sep 2025 08:13:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 12:33:22.775529
- Title: C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection
- Title(参考訳): C-DiffDet+:高忠実度物体検出のための生成Denoisingを用いたグローバルシーンコンテキストの融合
- Authors: Abdellah Zakaria Sellam, Ilyes Benaissa, Salah Eddine Bekhouche, Abdenour Hadid, Vito Renó, Cosimo Distante,
- Abstract要約: グローバルシーンコンテキストとローカル提案機能を直接統合したContext-Aware Fusion(CAF)を導入する。
CAFは、各オブジェクトの提案がシーンレベルの理解に参加することを可能にすることで、生成的検出パラダイムを著しく強化する。
実験結果から,CarDDベンチマークにおける最先端モデルの改善が示された。
- 参考スコア(独自算出の注目度): 6.158409051007809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained object detection in challenging visual domains, such as vehicle damage assessment, presents a formidable challenge even for human experts to resolve reliably. While DiffusionDet has advanced the state-of-the-art through conditional denoising diffusion, its performance remains limited by local feature conditioning in context-dependent scenarios. We address this fundamental limitation by introducing Context-Aware Fusion (CAF), which leverages cross-attention mechanisms to integrate global scene context with local proposal features directly. The global context is generated using a separate dedicated encoder that captures comprehensive environmental information, enabling each object proposal to attend to scene-level understanding. Our framework significantly enhances the generative detection paradigm by enabling each object proposal to attend to comprehensive environmental information. Experimental results demonstrate an improvement over state-of-the-art models on the CarDD benchmark, establishing new performance benchmarks for context-aware object detection in fine-grained domains
- Abstract(参考訳): 車両の損傷評価のような挑戦的な視覚領域におけるきめ細かい物体検出は、人間の専門家が確実に解決することさえも、非常に難しい課題である。
DiffusionDetは条件付きdenoising拡散を通じて最先端のテクノロジーを進化させたが、その性能は、コンテキスト依存のシナリオにおけるローカルな特徴条件付けによって制限されている。
我々は、グローバルなシーンコンテキストとローカルな提案機能を直接統合するために、クロスアテンションメカニズムを活用するContext-Aware Fusion (CAF)を導入することで、この根本的な制限に対処する。
グローバルコンテキストは、個別の専用エンコーダを使用して生成され、総合的な環境情報をキャプチャし、各オブジェクトの提案がシーンレベルの理解に参加することができる。
本フレームワークは,各オブジェクトの提案を包括的環境情報に適合させることにより,生成検出パラダイムを大幅に強化する。
実験により、CarDDベンチマークにおける最先端モデルの改善が示され、微粒領域におけるコンテキスト認識オブジェクト検出のための新しいパフォーマンスベンチマークが確立された。
関連論文リスト
- Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。