論文の概要: ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection
- arxiv url: http://arxiv.org/abs/2510.15783v1
- Date: Fri, 17 Oct 2025 16:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.706073
- Title: ReCon: Region-Controllable Data Augmentation with Rectification and Alignment for Object Detection
- Title(参考訳): ReCon: オブジェクト検出のための整形とアライメントを備えた領域制御可能なデータ拡張
- Authors: Haowei Zhu, Tianxiang Pan, Rui Qin, Jun-Hai Yong, Bin Wang,
- Abstract要約: 生成モデルは、所望の分布に従属するサンプルを合成することによって、データ拡張のための強力なツールとして登場した。
ReConは、オブジェクト検出のための構造制御可能な生成モデルの能力を高める新しい拡張フレームワークである。
- 参考スコア(独自算出の注目度): 16.835087042512022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scale and quality of datasets are crucial for training robust perception models. However, obtaining large-scale annotated data is both costly and time-consuming. Generative models have emerged as a powerful tool for data augmentation by synthesizing samples that adhere to desired distributions. However, current generative approaches often rely on complex post-processing or extensive fine-tuning on massive datasets to achieve satisfactory results, and they remain prone to content-position mismatches and semantic leakage. To overcome these limitations, we introduce ReCon, a novel augmentation framework that enhances the capacity of structure-controllable generative models for object detection. ReCon integrates region-guided rectification into the diffusion sampling process, using feedback from a pre-trained perception model to rectify misgenerated regions within diffusion sampling process. We further propose region-aligned cross-attention to enforce spatial-semantic alignment between image regions and their textual cues, thereby improving both semantic consistency and overall image fidelity. Extensive experiments demonstrate that ReCon substantially improve the quality and trainability of generated data, achieving consistent performance gains across various datasets, backbone architectures, and data scales. Our code is available at https://github.com/haoweiz23/ReCon .
- Abstract(参考訳): データセットのスケールと品質は、堅牢な知覚モデルのトレーニングに不可欠である。
しかし、大規模な注釈付きデータを取得するのは費用も時間もかかる。
生成モデルは、所望の分布に従属するサンプルを合成することによって、データ拡張のための強力なツールとして登場した。
しかし、現在の生成的アプローチはしばしば、満足な結果を得るために大量のデータセットの複雑な後処理や広範囲の微調整に依存しており、コンテンツ配置ミスマッチやセマンティックリークの傾向にある。
これらの制約を克服するため、オブジェクト検出のための構造制御可能な生成モデルの能力を高める新しい拡張フレームワークReConを導入する。
ReConは、事前学習された知覚モデルからのフィードバックを用いて、拡散サンプリングプロセス内の誤生成領域を修正することにより、領域誘導補正を拡散サンプリングプロセスに統合する。
さらに,画像領域とそのテキストキュー間の空間的セマンティックなアライメントを強制する領域整合型クロスアテンションを提案し,セマンティック一貫性と全体像の忠実度を改善した。
大規模な実験では、ReConは生成されたデータの品質とトレーニング性を大幅に改善し、さまざまなデータセット、バックボーンアーキテクチャ、データスケールで一貫したパフォーマンス向上を実現している。
私たちのコードはhttps://github.com/haoweiz23/ReConで利用可能です。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。
現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文 参考訳(メタデータ) (2025-04-19T13:40:46Z) - Conditional Data Synthesis Augmentation [4.3108820946281945]
Conditional Data Synthesis Augmentation (CoDSA)は、マルチモーダルドメイン間のモデルパフォーマンスを改善するために高忠実度データを合成する新しいフレームワークである。
合成データの現実性を高め,スパース領域の試料密度を高めるために,CoDSAファインチューン事前学習生成モデルを構築した。
本稿では,合成サンプル量と対象領域割り当ての関数として,CoDSAが実現した統計的精度向上を定量化する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-04-10T03:38:11Z) - Feature-to-Image Data Augmentation: Improving Model Feature Extraction with Cluster-Guided Synthetic Samples [4.041834517339835]
本研究ではFICAugを紹介した。FICAugは機能間データ拡張フレームワークである。
構造化された合成サンプルを生成することにより、限られたデータ条件下でのモデル一般化を改善するように設計されている。
実験の結果, FICAugは分類精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Reconstructing Spatiotemporal Data with C-VAEs [49.1574468325115]
移動領域の条件付き連続表現は一般的に用いられる。
本研究では,条件変数自動エンコーダ(C-VAE)モデルを用いて,領域の進化を現実的に表現する機能について検討する。
論文 参考訳(メタデータ) (2023-07-12T15:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。