Fugu-MT 論文翻訳(概要): CamDiff: Camouflage Image Augmentation via Diffusion Model

論文の概要: CamDiff: Camouflage Image Augmentation via Diffusion Model

arxiv url: http://arxiv.org/abs/2304.05469v1
Date: Tue, 11 Apr 2023 19:37:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-13 16:53:49.120778
Title: CamDiff: Camouflage Image Augmentation via Diffusion Model
Title（参考訳）: CamDiff:拡散モデルによるカモフラージュ画像の拡張
Authors: Xue-Jing Luo, Shuo Wang, Zongwei Wu, Christos Sakaridis, Yun Cheng, Deng-Ping Fan, Luc Van Gool
Abstract要約: CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
参考スコア（独自算出の注目度）: 83.35960536063857
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The burgeoning field of camouflaged object detection (COD) seeks to identify objects that blend into their surroundings. Despite the impressive performance of recent models, we have identified a limitation in their robustness, where existing methods may misclassify salient objects as camouflaged ones, despite these two characteristics being contradictory. This limitation may stem from lacking multi-pattern training images, leading to less saliency robustness. To address this issue, we introduce CamDiff, a novel approach inspired by AI-Generated Content (AIGC) that overcomes the scarcity of multi-pattern training images. Specifically, we leverage the latent diffusion model to synthesize salient objects in camouflaged scenes, while using the zero-shot image classification ability of the Contrastive Language-Image Pre-training (CLIP) model to prevent synthesis failures and ensure the synthesized object aligns with the input prompt. Consequently, the synthesized image retains its original camouflage label while incorporating salient objects, yielding camouflage samples with richer characteristics. The results of user studies show that the salient objects in the scenes synthesized by our framework attract the user's attention more; thus, such samples pose a greater challenge to the existing COD models. Our approach enables flexible editing and efficient large-scale dataset generation at a low cost. It significantly enhances COD baselines' training and testing phases, emphasizing robustness across diverse domains. Our newly-generated datasets and source code are available at https://github.com/drlxj/CamDiff.
Abstract（参考訳）: 迷彩物体検出(camouflaged object detection, cod)は、周囲に溶け込む物体を識別することを目的としている。最近のモデルの印象的な性能にもかかわらず、これらの2つの特徴が矛盾しているにもかかわらず、既存のメソッドがサルエントオブジェクトをカモフラージュオブジェクトとして誤分類する可能性があり、ロバスト性に制限があることがわかりました。この制限は、多パターンのトレーニングイメージの欠如に起因する可能性がある。この問題に対処するために、マルチパターントレーニングイメージの不足を克服するAIGC(AI-Generated Content)にインスパイアされた、新しいアプローチであるCamDiffを紹介する。具体的には, 潜在拡散モデルを用いてカモフラージュシーンのサルエントオブジェクトを合成し, コントラスト言語-画像事前学習(clip)モデルのゼロショット画像分類能力を用いて, 合成失敗を防止し, 合成オブジェクトが入力プロンプトと整合することを保証する。これにより、合成画像は、その元のカモフラージュラベルを保持しつつ、よりリッチな特性を有するカモフラージュサンプルを生成する。ユーザスタディの結果から,我々のフレームワークによって合成されたシーンの健全なオブジェクトは,ユーザの注意を惹きつけることが示され,既存のCODモデルにとって大きな課題となっている。当社のアプローチでは、フレキシブルな編集と効率的な大規模データセット生成を低コストで実現している。 codベースラインのトレーニングとテストフェーズを大幅に強化し、さまざまなドメイン間の堅牢性を強調している。新たに生成されたデータセットとソースコードはhttps://github.com/drlxj/CamDiff.comで公開されています。

関連論文リスト

BD-Diff: Generative Diffusion Model for Image Deblurring on Unknown Domains with Blur-Decoupled Learning [55.21345354747609]
BD-Diffは、未知の領域における劣化性能を高めるために設計された生成拡散モデルである。構造表現とぼやけたパターン抽出器に2つのQ-Formerを別々に採用する。構造的特徴とぼやけたパターンを補完する再構成タスクを導入する。
論文参考訳（メタデータ） (2025-02-03T17:00:40Z)
CGCOD: Class-Guided Camouflaged Object Detection [19.959268087062217]
我々は,従来のCODタスクを拡張したCGCOD(Class-Guided Camouflaged Object Detection)を導入する。本稿では,プラグイン・アンド・プレイのクラス・プロンプト・ジェネレータと,シンプルで効果的なクラス・ガイダンス・ディテクターを組み込んだマルチステージ・フレームワークCGNetを提案する。これはCODの新しいパラダイムを確立し、コンテキスト理解とクラス誘導検出のギャップを埋める。
論文参考訳（メタデータ） (2024-12-25T19:38:32Z)
Unconstrained Salient and Camouflaged Object Detection [4.698538612738126]
制約なし塩分とカモフラーゲ型オブジェクト検出 (USCOD) というベンチマークを導入する。 USCODは、その存在に関係なく、制約のないシーンで、塩分とカモフラージュされた物体の同時検出をサポートする。この課題に対処するため,USCODのベースラインモデルであるUSCNetを提案する。
論文参考訳（メタデータ） (2024-12-14T19:37:17Z)
ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文参考訳（メタデータ） (2023-10-31T06:11:23Z)
Unveiling Camouflage: A Learnable Fourier-based Augmentation for Camouflaged Object Detection and Instance Segmentation [27.41886911999097]
本稿では,camouflaged object detection (COD) とcamouflaged instance segmentation (CIS) の学習可能な拡張法を提案する。提案手法は,カモフラージュされた対象検出器とカモフラーグされたインスタンスセグメンタの性能を大きなマージンで向上させる。
論文参考訳（メタデータ） (2023-08-29T22:43:46Z)
Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [65.8867003376637]
本研究では,カモフラージュデータの合成フレームワークを提案する。提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
論文参考訳（メタデータ） (2023-08-13T06:55:05Z)
CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文参考訳（メタデータ） (2023-05-29T07:49:44Z)
Generating Features with Increased Crop-related Diversity for Few-Shot Object Detection [35.652092907690694]
2段階のオブジェクト検出器はオブジェクトの提案を生成し、イメージ内のオブジェクトを検出するためにそれらを分類する。提案にはオブジェクトを完全に含まないことが多いが、多くの点で重複している。本稿では,作物の多様性が増大するデータを生成することのできる,新しい変分自動エンコーダに基づくデータ生成モデルを提案する。
論文参考訳（メタデータ） (2023-04-11T09:47:21Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
High-resolution Iterative Feedback Network for Camouflaged Object Detection [128.893782016078]
カモフラージュされたオブジェクトを背景に視覚的に同化させることは、オブジェクト検出アルゴリズムにとって難しい。エッジやバウンダリのぼやけた視界を生じさせる細部劣化を避けるために,高分解能テクスチャの詳細を抽出することを目的としている。我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練する新しいHitNetを提案する。
論文参考訳（メタデータ） (2022-03-22T11:20:21Z)
Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object Detection [0.0]
本稿では,不明瞭な画像を観察する際の人間の動作を模倣する混合スケール三重項ネットワークbf ZoomNetを提案する。具体的には、ZoomNetは、ズーム戦略を用いて、設計されたスケール統合ユニットと階層的な混合スケールユニットによって、差別的な混合スケール意味学を学ぶ。提案したタスクフレンドリなモデルは、4つの公開データセット上の既存の23の最先端手法を一貫して上回っている。
論文参考訳（メタデータ） (2022-03-05T09:13:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。