論文の概要: Amodal Completion via Progressive Mixed Context Diffusion
- arxiv url: http://arxiv.org/abs/2312.15540v1
- Date: Sun, 24 Dec 2023 19:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:39:09.431604
- Title: Amodal Completion via Progressive Mixed Context Diffusion
- Title(参考訳): 進行混合文脈拡散によるアモーダルコンプリート
- Authors: Katherine Xu, Lingzhi Zhang, Jianbo Shi
- Abstract要約: しかし、このタスクは急速に進歩しているにもかかわらず、生成AIにとって依然として課題である。
本稿では,アモーダルマスクの予測と画素生成という2段階のプロセスを含む,既存のアプローチの難しさの多くをサイドステップで行うことを提案する。
このアモーダル補修法は,多くの成功事例において既存の手法と比較して,改良されたフォトリアリスティック補修結果を示す。
- 参考スコア(独自算出の注目度): 15.129662879410567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our brain can effortlessly recognize objects even when partially hidden from
view. Seeing the visible of the hidden is called amodal completion; however,
this task remains a challenge for generative AI despite rapid progress. We
propose to sidestep many of the difficulties of existing approaches, which
typically involve a two-step process of predicting amodal masks and then
generating pixels. Our method involves thinking outside the box, literally! We
go outside the object bounding box to use its context to guide a pre-trained
diffusion inpainting model, and then progressively grow the occluded object and
trim the extra background. We overcome two technical challenges: 1) how to be
free of unwanted co-occurrence bias, which tends to regenerate similar
occluders, and 2) how to judge if an amodal completion has succeeded. Our
amodal completion method exhibits improved photorealistic completion results
compared to existing approaches in numerous successful completion cases. And
the best part? It doesn't require any special training or fine-tuning of
models.
- Abstract(参考訳): 私たちの脳は、部分的に視界から隠れた場合でも、オブジェクトを無力に認識できます。
しかし、このタスクは急速に進歩しているにもかかわらず、生成AIにとって依然として課題である。
我々は,アモーダルマスクの予測と画素生成の2段階のプロセスを含む,既存のアプローチの難しさの多くを回避することを提案する。
私たちの方法は、文字通り箱の外で考えることです!
我々は、オブジェクト境界ボックスの外へ行き、そのコンテキストを使用して、事前訓練された拡散塗装モデルを誘導し、徐々に隠蔽されたオブジェクトを成長させ、余分な背景をトリムする。
2つの技術的な課題を克服しました
1) 同様のオクルーダを再生する傾向のある不必要な共起バイアスの解消方法
2) amodal completionが成功したかどうかを判断する方法。
amodal completion 法は, 既存手法に比べて多くの成功例において, フォトリアリスティックな補完性能が向上した。
一番いいところは?
特別なトレーニングやモデルの微調整は必要ありません。
関連論文リスト
- BadCM: Invisible Backdoor Attack Against Cross-Modal Learning [110.37205323355695]
クロスモーダルバックドアにおけるパズルの欠片を補うために,新たな両面バックドアを導入する。
BadCMは、1つの統合されたフレームワーク内で多様なクロスモーダルアタックのために意図的に設計された最初の目に見えないバックドアメソッドである。
論文 参考訳(メタデータ) (2024-10-03T03:51:53Z) - Multi-Style Facial Sketch Synthesis through Masked Generative Modeling [17.313050611750413]
本稿では,画像と対応するマルチスタイリズドスケッチを効率よく変換する軽量なエンドツーエンド合成モデルを提案する。
本研究では,半教師付き学習を学習プロセスに取り入れることで,データ不足の問題を克服する。
提案手法は,複数のベンチマークで従来アルゴリズムより常に優れていた。
論文 参考訳(メタデータ) (2024-08-22T13:45:04Z) - Fill in the ____ (a Diffusion-based Image Inpainting Pipeline) [0.0]
塗り絵は、画像を撮り、失った、または故意に隠された部分を生成する過程である。
現代の塗装技術は、有能な完成物を生成する際、顕著な能力を示している。
既存のモデルにおける重要なギャップに対処し、何が正確に生成されたかをプロンプトし制御する能力に焦点を当てる。
論文 参考訳(メタデータ) (2024-03-24T05:26:55Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - DifFace: Blind Face Restoration with Diffused Error Contraction [62.476329680424975]
DifFaceは、複雑な損失設計なしで、目に見えない複雑な劣化にもっと優しく対処できる。
現在の最先端の手法よりも優れており、特に深刻な劣化の場合には優れている。
論文 参考訳(メタデータ) (2022-12-13T11:52:33Z) - Pluralistic Image Completion with Probabilistic Mixture-of-Experts [58.81469985455467]
本稿では,画像補完における複雑な相互作用を表す統一確率グラフモデルを提案する。
画像補完の手順全体を数学的にいくつかのサブプロデューサに分割し、制約の効率的な適用を支援する。
GMMの固有のパラメータはタスク関連であり、トレーニング中に適応的に最適化され、プリミティブの数は、結果の多様性を便利に制御できる。
論文 参考訳(メタデータ) (2022-05-18T17:24:21Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。