論文の概要: Text-guided Controllable Diffusion for Realistic Camouflage Images Generation
- arxiv url: http://arxiv.org/abs/2511.20218v1
- Date: Tue, 25 Nov 2025 11:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.431764
- Title: Text-guided Controllable Diffusion for Realistic Camouflage Images Generation
- Title(参考訳): リアルなカモフラージュ画像生成のためのテキスト誘導制御可能な拡散
- Authors: Yuhang Qian, Haiyan Chen, Wentong Li, Ningzhong Liu, Jie Qin,
- Abstract要約: カモフラージュ画像生成(CIG)は、物体が調和してブレンドされ、周囲と高い視覚的一貫性を示す合成画像に焦点を当てた新興研究分野である。
本稿では,リアルかつ論理的に妥当なカモフラージュ画像を生成する制御可能なテキスト誘導カモフラージュ画像生成手法を提案する。
- 参考スコア(独自算出の注目度): 33.31050008276478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflage Images Generation (CIG) is an emerging research area that focuses on synthesizing images in which objects are harmoniously blended and exhibit high visual consistency with their surroundings. Existing methods perform CIG by either fusing objects into specific backgrounds or outpainting the surroundings via foreground object-guided diffusion. However, they often fail to obtain natural results because they overlook the logical relationship between camouflaged objects and background environments. To address this issue, we propose CT-CIG, a Controllable Text-guided Camouflage Images Generation method that produces realistic and logically plausible camouflage images. Leveraging Large Visual Language Models (VLM), we design a Camouflage-Revealing Dialogue Mechanism (CRDM) to annotate existing camouflage datasets with high-quality text prompts. Subsequently, the constructed image-prompt pairs are utilized to finetune Stable Diffusion, incorporating a lightweight controller to guide the location and shape of camouflaged objects for enhanced camouflage scene fitness. Moreover, we design a Frequency Interaction Refinement Module (FIRM) to capture high-frequency texture features, facilitating the learning of complex camouflage patterns. Extensive experiments, including CLIPScore evaluation and camouflage effectiveness assessment, demonstrate the semantic alignment of our generated text prompts and CT-CIG's ability to produce photorealistic camouflage images.
- Abstract(参考訳): カモフラージュ画像生成(CIG)は、物体が調和してブレンドされ、周囲と高い視覚的一貫性を示す合成画像に焦点を当てた新興研究分野である。
既存の手法では、対象を特定の背景に融合させたり、前景の物体誘導拡散によって周囲を悪化させたりすることでCIGを実行する。
しかし、カモフラージュされた物体と背景環境の間の論理的関係を見落としているため、自然の結果を得ることができないことが多い。
この問題に対処するために,現実的で論理的に妥当なカモフラージュ画像を生成する制御可能なテキスト誘導カモフラージュ画像生成法であるCT-CIGを提案する。
大規模ビジュアル言語モデル(VLM)を活用することで、高品質なテキストプロンプトで既存のカモフラージュデータセットに注釈を付けるためのCRDM(Camouflage-Revealing Dialogue Mechanism)を設計する。
その後、構築された画像プロンプト対を用いて安定拡散を微調整し、カモフラージュされた物体の位置と形状を誘導する軽量コントローラを内蔵し、カモフラージュシーンの適合度を高める。
さらに、高周波テクスチャの特徴を捉え、複雑なカモフラージュパターンの学習を容易にするために、FIRM ( Frequency Interaction Refinement Module) を設計する。
CLIPScoreの評価とカモフラージュ評価を含む広範囲な実験は、生成したテキストプロンプトのセマンティックアライメントと、CT-CIGによるフォトリアリスティックカモフラージュ画像の生成能力を示す。
関連論文リスト
- CGCOD: Class-Guided Camouflaged Object Detection [19.959268087062217]
我々は,従来のCODタスクを拡張したCGCOD(Class-Guided Camouflaged Object Detection)を導入する。
本稿では,プラグイン・アンド・プレイのクラス・プロンプト・ジェネレータと,シンプルで効果的なクラス・ガイダンス・ディテクターを組み込んだマルチステージ・フレームワークCGNetを提案する。
これはCODの新しいパラダイムを確立し、コンテキスト理解とクラス誘導検出のギャップを埋める。
論文 参考訳(メタデータ) (2024-12-25T19:38:32Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [47.653092957888596]
本研究では,カモフラージュデータの合成フレームワークを提案する。
提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。
我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-08-13T06:55:05Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Dynamic Object Removal and Spatio-Temporal RGB-D Inpainting via
Geometry-Aware Adversarial Learning [9.150245363036165]
動的物体はロボットの環境に対する認識に大きな影響を及ぼす。
本研究は,動的物体によって隠蔽された領域における可塑性色,テクスチャ,幾何学を合成することにより,この問題に対処する。
本研究は, 対人訓練を用いて建築を最適化し, オンラインで色と深度構造を幻覚できるような, 微妙な現実的なテクスチャを合成する。
論文 参考訳(メタデータ) (2020-08-12T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。