論文の概要: GenDet: Painting Colored Bounding Boxes on Images via Diffusion Model for Object Detection
- arxiv url: http://arxiv.org/abs/2601.07273v1
- Date: Mon, 12 Jan 2026 07:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.261744
- Title: GenDet: Painting Colored Bounding Boxes on Images via Diffusion Model for Object Detection
- Title(参考訳): GenDet:オブジェクト検出のための拡散モデルによる画像上の色付き境界ボックスの塗装
- Authors: Chen Min, Chengyang Li, Fanjie Kong, Qi Zhu, Dawei Zhao, Liang Xiao,
- Abstract要約: GenDetは、画像生成タスクとしてオブジェクト検出を再定義する新しいフレームワークである。
従来のアプローチとは対照的に、GenDetは生成モデリングを活用するという先駆的なアプローチを採用している。
元のイメージ空間で意味アノテーションを持つバウンディングボックスを生成する。
- 参考スコア(独自算出の注目度): 20.417545373646032
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents GenDet, a novel framework that redefines object detection as an image generation task. In contrast to traditional approaches, GenDet adopts a pioneering approach by leveraging generative modeling: it conditions on the input image and directly generates bounding boxes with semantic annotations in the original image space. GenDet establishes a conditional generation architecture built upon the large-scale pre-trained Stable Diffusion model, formulating the detection task as semantic constraints within the latent space. It enables precise control over bounding box positions and category attributes, while preserving the flexibility of the generative model. This novel methodology effectively bridges the gap between generative models and discriminative tasks, providing a fresh perspective for constructing unified visual understanding systems. Systematic experiments demonstrate that GenDet achieves competitive accuracy compared to discriminative detectors, while retaining the flexibility characteristic of generative methods.
- Abstract(参考訳): 本稿では,画像生成タスクとしてオブジェクト検出を再定義する新しいフレームワークであるGenDetを提案する。
従来のアプローチとは対照的に、GenDetは生成的モデリングを活用することで先駆的なアプローチを採用している。
GenDetは、大規模で訓練済みの安定拡散モデルに基づいて構築された条件生成アーキテクチャを確立し、検出タスクを潜在空間内の意味制約として定式化する。
生成モデルの柔軟性を維持しながら、バウンディングボックスの位置とカテゴリ属性を正確に制御できる。
この新しい手法は、生成的モデルと識別的タスクのギャップを効果的に埋め、統合された視覚的理解システムを構築するための新しい視点を提供する。
システム実験により、GenDetは、生成法の柔軟性特性を保ちながら、識別検出器と比較して、競争精度が向上することを示した。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。
我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文 参考訳(メタデータ) (2025-06-02T11:05:28Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Object-Centric Relational Representations for Image Generation [18.069747511100132]
本稿では,オブジェクト中心のリレーショナル表現に基づく条件画像生成手法を提案する。
このようなアーキテクチャバイアスには,生成過程の操作と条件付けを容易にする特性が伴うことを示す。
また,関係表現と組み合わせた画像の合成データセットからなる画像生成のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2023-03-26T11:17:17Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Decoupling Global and Local Representations via Invertible Generative
Flows [47.366299240738094]
標準画像ベンチマークによる実験結果から, 密度推定, 画像生成, 教師なし表現学習の観点から, モデルの有効性が示された。
この研究は、確率に基づく目的を持つ生成モデルが疎結合表現を学習でき、明示的な監督を必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-12T03:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。