論文の概要: SynergyAmodal: Deocclude Anything with Text Control
- arxiv url: http://arxiv.org/abs/2504.19506v1
- Date: Mon, 28 Apr 2025 06:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.338507
- Title: SynergyAmodal: Deocclude Anything with Text Control
- Title(参考訳): SynergyAmodal: テキストコントロールで何かを隠蔽する
- Authors: Xinyang Li, Chengjie Yi, Jiawei Lai, Mingbao Lin, Yansong Qu, Shengchuan Zhang, Liujuan Cao,
- Abstract要約: 画像の隠蔽は、画像の隠蔽されたインスタンスの見えない領域(e, shape, appearance)を復元することを目的としている。
In-theld amodal データセットを包括的形状と外観アノテーションで共合成する新しいフレームワーク SynergyAmodal を提案する。
- 参考スコア(独自算出の注目度): 27.027748040959025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image deocclusion (or amodal completion) aims to recover the invisible regions (\ie, shape and appearance) of occluded instances in images. Despite recent advances, the scarcity of high-quality data that balances diversity, plausibility, and fidelity remains a major obstacle. To address this challenge, we identify three critical elements: leveraging in-the-wild image data for diversity, incorporating human expertise for plausibility, and utilizing generative priors for fidelity. We propose SynergyAmodal, a novel framework for co-synthesizing in-the-wild amodal datasets with comprehensive shape and appearance annotations, which integrates these elements through a tripartite data-human-model collaboration. First, we design an occlusion-grounded self-supervised learning algorithm to harness the diversity of in-the-wild image data, fine-tuning an inpainting diffusion model into a partial completion diffusion model. Second, we establish a co-synthesis pipeline to iteratively filter, refine, select, and annotate the initial deocclusion results of the partial completion diffusion model, ensuring plausibility and fidelity through human expert guidance and prior model constraints. This pipeline generates a high-quality paired amodal dataset with extensive category and scale diversity, comprising approximately 16K pairs. Finally, we train a full completion diffusion model on the synthesized dataset, incorporating text prompts as conditioning signals. Extensive experiments demonstrate the effectiveness of our framework in achieving zero-shot generalization and textual controllability. Our code, dataset, and models will be made publicly available at https://github.com/imlixinyang/SynergyAmodal.
- Abstract(参考訳): 画像デクルージョン(またはアモーダルコンプリート)は、画像中の隠蔽されたインスタンスの見えない領域(像、形状、外観)を復元することを目的としている。
近年の進歩にもかかわらず、多様性、可視性、忠実性のバランスをとる高品質なデータの不足は依然として大きな障害である。
この課題に対処するため,本研究では,多様性のための画像データの活用,可視性のための人間の専門知識の活用,忠実性のための生成優先事項の活用の3つの重要な要素を同定した。
我々は,3部構成のデータ-ヒューマン・モデル・コラボレーションを通じて,これらの要素を総合的な形状と外観アノテーションで合成する新しいフレームワークであるSynergyAmodalを提案する。
まず,被写体画像データの多様性を利用して,被写体拡散モデルを部分完備拡散モデルに微調整する自己教師付き学習アルゴリズムを設計する。
第2に, 部分完備拡散モデルの初期除去結果を反復的にフィルタリング, 精製, 選択, 注釈付けし, 人間の専門家による指導と事前モデルの制約による妥当性と忠実性を確保するために, 共同合成パイプラインを構築した。
このパイプラインは、およそ16Kペアからなる広範囲のカテゴリとスケールの多様性を備えた高品質なペアアモーダルデータセットを生成する。
最後に,テキストプロンプトを条件付き信号として組み込んだ完全完備拡散モデルを合成データセット上で訓練する。
大規模な実験により、ゼロショットの一般化とテキスト制御性を達成する上で、我々のフレームワークの有効性が実証された。
私たちのコード、データセット、モデルはhttps://github.com/imlixinyang/SynergyAmodal.comで公開されます。
関連論文リスト
- Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.72900198337818]
そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。
本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。
本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-25T09:23:20Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Informative Data Selection with Uncertainty for Multi-modal Object
Detection [25.602915381482468]
普遍的不確実性を考慮したマルチモーダル融合モデルを提案する。
本モデルでは,融合時のランダム性を低減し,信頼性の高い出力を生成する。
我々の核融合モデルでは、ガウス、運動のぼやけ、凍土のような激しいノイズ干渉に対してわずかにしか耐えられないことが証明されている。
論文 参考訳(メタデータ) (2023-04-23T16:36:13Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。