論文の概要: RealCamo: Boosting Real Camouflage Synthesis with Layout Controls and Textual-Visual Guidance
- arxiv url: http://arxiv.org/abs/2512.22974v1
- Date: Sun, 28 Dec 2025 15:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.306994
- Title: RealCamo: Boosting Real Camouflage Synthesis with Layout Controls and Textual-Visual Guidance
- Title(参考訳): RealCamo: レイアウト制御とテキスト・ビジュアルガイダンスによるリアルカモフラージュ合成の促進
- Authors: Chunyuan Chen, Yunuo Cai, Shujuan Li, Weiyun Liang, Bin Wang, Jing Xu,
- Abstract要約: リアルなカモフラージュ画像生成のための統一されたアウトペイントベースフレームワークを提案する。
ReamCamoは、グローバルなイメージ構造を制御するためのレイアウトコントロールを明示的に導入している。
また,生成画像におけるカモフラージュの有効性を計測する背景・地上分布のばらつき尺度も導入する。
- 参考スコア(独自算出の注目度): 13.352489108641938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged image generation (CIG) has recently emerged as an efficient alternative for acquiring high-quality training data for camouflaged object detection (COD). However, existing CIG methods still suffer from a substantial gap to real camouflaged imagery: generated images either lack sufficient camouflage due to weak visual similarity, or exhibit cluttered backgrounds that are semantically inconsistent with foreground targets. To address these limitations, we propose ReamCamo, a unified out-painting based framework for realistic camouflaged image generation. ReamCamo explicitly introduces additional layout controls to regulate global image structure, thereby improving semantic coherence between foreground objects and generated backgrounds. Moreover, we construct a multi-modal textual-visual condition by combining a unified fine-grained textual task description with texture-oriented background retrieval, which jointly guides the generation process to enhance visual fidelity and realism. To quantitatively assess camouflage quality, we further introduce a background-foreground distribution divergence metric that measures the effectiveness of camouflage in generated images. Extensive experiments and visualizations demonstrate the effectiveness of our proposed framework.
- Abstract(参考訳): カモフラージュ画像生成(CIG)は、最近、カモフラージュ物体検出(COD)のための高品質なトレーニングデータを取得するための効率的な代替手段として登場した。
しかし、既存のCIG法は、実際のカモフラージュ画像とはかなりのギャップを被っている: 生成された画像は、視覚的類似性の弱いために十分なカモフラージュを欠いているか、または、前景のターゲットと意味的に一致しない散在した背景を示すかのいずれかである。
これらの制約に対処するため、リアルなカモフラージュ画像生成のための統一されたアウトペイントベースのフレームワークであるReamCamoを提案する。
ReamCamoは、グローバルなイメージ構造を制御するためのレイアウトコントロールを明示的に導入し、フォアグラウンドオブジェクトと生成されたバックグラウンド間のセマンティックコヒーレンスを改善する。
さらに、統合されたきめ細かいテキストタスク記述とテクスチャ指向の背景検索を組み合わせることで、視覚的忠実度とリアリズムを高めるために生成プロセスを共同で導くことで、マルチモーダルなテキスト-視覚条件を構築する。
さらに, カモフラージュの質を定量的に評価するために, 生成画像におけるカモフラージュの有効性を計測する背景分布のばらつき指標を導入する。
大規模な実験と可視化により,提案手法の有効性が示された。
関連論文リスト
- Text-guided Controllable Diffusion for Realistic Camouflage Images Generation [33.31050008276478]
カモフラージュ画像生成(CIG)は、物体が調和してブレンドされ、周囲と高い視覚的一貫性を示す合成画像に焦点を当てた新興研究分野である。
本稿では,リアルかつ論理的に妥当なカモフラージュ画像を生成する制御可能なテキスト誘導カモフラージュ画像生成手法を提案する。
論文 参考訳(メタデータ) (2025-11-25T11:43:58Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [2.3805413240744304]
本稿では,オブジェクトのコヒーレンスを導くために,効果的なグローバルセマンティックフュージョン(GSF)と自己相似特徴拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Camouflaged Image Synthesis Is All You Need to Boost Camouflaged Detection [47.653092957888596]
本研究では,カモフラージュデータの合成フレームワークを提案する。
提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。
我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-08-13T06:55:05Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。