論文の概要: High-Quality Proposal Encoding and Cascade Denoising for Imaginary Supervised Object Detection
- arxiv url: http://arxiv.org/abs/2511.08018v1
- Date: Wed, 12 Nov 2025 01:34:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.601862
- Title: High-Quality Proposal Encoding and Cascade Denoising for Imaginary Supervised Object Detection
- Title(参考訳): Imaginary Supervised Object Detectionのための高品質な符号化とカスケードデノイングの提案
- Authors: Zhiyuan Chen, Yuelin Guo, Zitong Huang, Haoyu He, Renhao Lu, Weizhe Zhang,
- Abstract要約: 既存の物体検出手法は、単純なプロンプト、画質の低下、監督の弱さに悩まされている。
これらの制約に対処するためにカスケードHQP-DETRを提案する。
まず,LLaMA-3, Flux, Grounding DINO を用いた高品質なデータパイプラインを導入し,FluxVOC と FluxCOCO のデータセットを生成する。
第二に、私たちのHigh-Quality Proposalは、SAM生成された提案から、画像固有のプリミティブを持つオブジェクトクエリを符号化するクエリをガイドします。
第三に、我々のカスケード復調アルゴリズムは、デコーダ層をまたいだIoU閾値を徐々に増加させ、トレーニングウェイトを動的に調整する。
- 参考スコア(独自算出の注目度): 20.075203668387136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object detection models demand large-scale annotated datasets, which are costly and labor-intensive to create. This motivated Imaginary Supervised Object Detection (ISOD), where models train on synthetic images and test on real images. However, existing methods face three limitations: (1) synthetic datasets suffer from simplistic prompts, poor image quality, and weak supervision; (2) DETR-based detectors, due to their random query initialization, struggle with slow convergence and overfitting to synthetic patterns, hindering real-world generalization; (3) uniform denoising pressure promotes model overfitting to pseudo-label noise. We propose Cascade HQP-DETR to address these limitations. First, we introduce a high-quality data pipeline using LLaMA-3, Flux, and Grounding DINO to generate the FluxVOC and FluxCOCO datasets, advancing ISOD from weak to full supervision. Second, our High-Quality Proposal guided query encoding initializes object queries with image-specific priors from SAM-generated proposals and RoI-pooled features, accelerating convergence while steering the model to learn transferable features instead of overfitting to synthetic patterns. Third, our cascade denoising algorithm dynamically adjusts training weights through progressively increasing IoU thresholds across decoder layers, guiding the model to learn robust boundaries from reliable visual cues rather than overfitting to noisy labels. Trained for just 12 epochs solely on FluxVOC, Cascade HQP-DETR achieves a SOTA 61.04\% mAP@0.5 on PASCAL VOC 2007, outperforming strong baselines, with its competitive real-data performance confirming the architecture's universal applicability.
- Abstract(参考訳): オブジェクト検出モデルは大規模なアノテートデータセットを必要とする。
これはImaginary Supervised Object Detection (ISOD)を動機付け、モデルが合成画像を訓練し、実際の画像をテストする。
しかし, 既存の手法では, 1) 合成データセットは, 簡潔なプロンプト, 画像品質の低下, 監督の弱さ, (2) ランダムなクエリ初期化, 収束の遅さ, 合成パターンへの過度な適合, および (3) 擬似ラベル雑音への過度な適応, の3つの制限に直面している。
これらの制約に対処するためにカスケードHQP-DETRを提案する。
まず,LLaMA-3, Flux, Grounding DINO を用いた高品質なデータパイプラインを導入し,FluxVOC と FluxCOCO のデータセットを生成し,ISOD を弱い監視から完全な監視へと進める。
第二に、ハイクオリティ提案は、SAM生成された提案とRoIプールされた特徴から、オブジェクトクエリを画像固有の先行値で初期化し、収束を加速し、合成パターンに過度に適合するのではなく、変換可能な特徴を学習できるようにモデルを操りながら、オブジェクトクエリを誘導する。
第三に、我々のカスケード復調アルゴリズムは、デコーダ層にまたがるIoU閾値を徐々に増加させ、ノイズの多いラベルに過度に適合するのではなく、信頼性の高い視覚的手がかりから堅牢な境界を学習するモデルを導くことによって、トレーニングウェイトを動的に調整する。
FluxVOCでのみ12エポックでトレーニングされたCascade HQP-DETRは,PASCAL VOC 2007でSOTA 61.04\% mAP@0.5を達成している。
関連論文リスト
- Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - MonoVQD: Monocular 3D Object Detection with Variational Query Denoising and Self-Distillation [0.6144680854063939]
我々は,DETRに基づくモノクル3D検出を高速化する新しいフレームワークであるMonoVQDを紹介する。
Mask Separated Self-Attentionメカニズムにより、DeTRアーキテクチャへのデノナイズプロセスの統合が可能になる。
本稿では,従来のデノナイズ手法の消滅問題に対処するために,変分クエリ・デノナイズ手法を提案する。
厳密な実験により、MonoVQDは挑戦的なKITTI単分子ベンチマークよりも優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2025-06-14T14:49:12Z) - MathPhys-Guided Coarse-to-Fine Anomaly Synthesis with SQE-Driven Bi-Level Optimization for Anomaly Detection [30.77558600436759]
本研究では,Math-Physモデル誘導による合成異常を生成する,新しい軽量パイプラインを提案する。
本手法は現実的な欠陥マスクを生成し,その後2段階に拡張した。
本手法を検証するために,MVTec AD, VisA, BTADの3つの異常検出ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2025-04-17T14:22:27Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video [30.89206445146674]
ノイズフリーデータへの依存という限界に対処することで、ロバストなエゴモーション推定とフォトリアリスティックな3D再構成を再定義することを目指している。
スケーラブルなデータ生成、包括的な堅牢性、モデルの強化という3つの課題に取り組んでいます。
Robust-Ego3Dという,ノイズによるパフォーマンス劣化の顕在化を目的としたベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-01-24T08:25:48Z) - Hardness-Aware Scene Synthesis for Semi-Supervised 3D Object Detection [59.33188668341604]
3次元物体検出は、自律運転知覚の基本的なタスクとして機能する。
ポイントクラウドデータのための高品質なアノテーションを得るためには、コストがかかる。
本稿では,適応型合成シーンを生成するために,ハードネス対応シーン合成(HASS)手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:23Z) - Synthetic Data Supervised Salient Object Detection [40.991558165686136]
そこで我々は,SODGANという,高品質な画像マスク対を無限に生成できる新しいSOD手法を提案する。
SODGANは、生成モデルから直接生成された合成データを用いて、SODに初めて取り組みます。
提案手法は, 半弱弱教師付き手法において新たなSOTA性能を実現し, 完全教師付きSOTA手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-25T08:36:29Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Attention Based Real Image Restoration [48.933507352496726]
深層畳み込みニューラルネットワークは、合成劣化を含む画像に対してより良い性能を発揮する。
本稿では,新しい1段ブラインド実画像復元ネットワーク(R$2$Net)を提案する。
論文 参考訳(メタデータ) (2020-04-26T04:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。