論文の概要: SYRAC: Synthesize, Rank, and Count
- arxiv url: http://arxiv.org/abs/2310.01662v3
- Date: Wed, 11 Oct 2023 19:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 14:56:52.763874
- Title: SYRAC: Synthesize, Rank, and Count
- Title(参考訳): SYRAC: 合成、ランク、カウント
- Authors: Adriano D'Alessandro, Ali Mahdavi-Amiri and Ghassan Hamarneh
- Abstract要約: 本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する新しい手法を提案する。
本報告では,非監視的群集カウントの最先端結果について報告する。
- 参考スコア(独自算出の注目度): 19.20599654208014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is a critical task in computer vision, with several important
applications. However, existing counting methods rely on labor-intensive
density map annotations, necessitating the manual localization of each
individual pedestrian. While recent efforts have attempted to alleviate the
annotation burden through weakly or semi-supervised learning, these approaches
fall short of significantly reducing the workload. We propose a novel approach
to eliminate the annotation burden by leveraging latent diffusion models to
generate synthetic data. However, these models struggle to reliably understand
object quantities, leading to noisy annotations when prompted to produce images
with a specific quantity of objects. To address this, we use latent diffusion
models to create two types of synthetic data: one by removing pedestrians from
real images, which generates ranked image pairs with a weak but reliable object
quantity signal, and the other by generating synthetic images with a
predetermined number of objects, offering a strong but noisy counting signal.
Our method utilizes the ranking image pairs for pre-training and then fits a
linear layer to the noisy synthetic images using these crowd quantity features.
We report state-of-the-art results for unsupervised crowd counting.
- Abstract(参考訳): クラウドカウントはコンピュータビジョンにおいて重要なタスクであり、いくつかの重要な応用がある。
しかし、既存の計数法は労働集約密度マップアノテーションに依存しており、個々の歩行者の手動位置決めを必要とする。
近年、弱い学習や半教師あり学習によるアノテーションの負担軽減が試みられているが、これらのアプローチは作業負荷を大幅に削減するものではない。
本稿では, 遅延拡散モデルを用いて合成データを生成することによって, アノテーションの負担を軽減する手法を提案する。
しかし、これらのモデルはオブジェクトの量を確実に理解するのに苦労しており、特定の量のオブジェクトで画像を生成すると、ノイズの多いアノテーションが発生する。
これを解決するために、潜伏拡散モデルを用いて、実際の画像から歩行者を除去し、弱いが信頼性の高い物体量信号でランク付けされた画像対を生成し、また、所定の数の物体で合成画像を生成し、強いがノイズの多い計数信号を提供する2種類の合成データを生成する。
本手法では,事前学習にランキング画像ペアを活用し,群集量特徴を用いたノイズ合成画像に線形層を適合させる。
教師なしの群衆数に対する最先端の成果を報告する。
関連論文リスト
- Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - Ultrasonic Image's Annotation Removal: A Self-supervised Noise2Noise
Approach [6.459010811099552]
本研究では,画像中のアノテーションを自動的に検出する手法を提案する。
アノテーションをノイズとして扱い、自己教師付きプレテキストタスクを作成し、Noss2Noiseスキームでトレーニングされたモデルを使用して、画像をクリーンな状態に復元する。
以上の結果から,ノイズ2ノイズ方式でトレーニングしたモデルのほとんどは,ノイズとクリーンなデータペアでトレーニングしたモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-09T09:15:32Z) - Counting Guidance for High Fidelity Text-to-Image Synthesis [2.6212127510234797]
テキストと画像の拡散モデルは、入力プロンプトに対して高い忠実度コンテンツを生成できない。
例えば、「テーブル上の5つのリンゴと10個のレモン」というプロンプトが与えられた場合、拡散生成画像は通常、間違った数のオブジェクトを含む。
本稿では,拡散モデルの改良手法を提案する。
論文 参考訳(メタデータ) (2023-06-30T11:40:35Z) - Focus for Free in Density-Based Counting [56.961229110268036]
利用可能なポイントアノテーションを再利用して、カウント性能を向上させる2つの方法を紹介します。
1つ目は、ポイントアノテーションを利用して、入力画像と密度画像の両方で隠蔽されたオブジェクトをシミュレートするカウント固有の拡張である。
第2の方法である前景蒸留は点アノテーションから前景マスクを生成し,黒色背景を持つ画像上で補助的ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-06-08T11:54:37Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - A Deep Learning Generative Model Approach for Image Synthesis of Plant
Leaves [62.997667081978825]
我々は,高度深層学習(DL)技術を用いて,人工葉画像の自動生成を行う。
我々は、現代の作物管理のためのAIアプリケーションのためのトレーニングサンプルのソースを処分することを目指している。
論文 参考訳(メタデータ) (2021-11-05T10:53:35Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z) - Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks [50.78037828213118]
本稿では,機能学習の観点から,半教師付き群集カウント問題に取り組む。
本稿では,2つの革新的なコンポーネント上に構築された,新しい半教師付き群集カウント手法を提案する。
論文 参考訳(メタデータ) (2020-07-07T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。