論文の概要: RealFill: Reference-Driven Generation for Authentic Image Completion
- arxiv url: http://arxiv.org/abs/2309.16668v2
- Date: Tue, 14 May 2024 17:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:50:31.136832
- Title: RealFill: Reference-Driven Generation for Authentic Image Completion
- Title(参考訳): RealFill: 認証画像補完のための参照駆動生成
- Authors: Luming Tang, Nataniel Ruiz, Qinghao Chu, Yuanzhen Li, Aleksander Holynski, David E. Jacobs, Bharath Hariharan, Yael Pritch, Neal Wadhwa, Kfir Aberman, Michael Rubinstein,
- Abstract要約: RealFillは、シーンの参照画像のみを使用してパーソナライズされた生成的インペイントモデルである。
RealFillは、オリジナルシーンに忠実な視覚的に魅力的なコンテンツでターゲットイメージを完成させることができます。
- 参考スコア(独自算出の注目度): 84.98377627001443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative imagery have brought forth outpainting and inpainting models that can produce high-quality, plausible image content in unknown regions. However, the content these models hallucinate is necessarily inauthentic, since they are unaware of the true scene. In this work, we propose RealFill, a novel generative approach for image completion that fills in missing regions of an image with the content that should have been there. RealFill is a generative inpainting model that is personalized using only a few reference images of a scene. These reference images do not have to be aligned with the target image, and can be taken with drastically varying viewpoints, lighting conditions, camera apertures, or image styles. Once personalized, RealFill is able to complete a target image with visually compelling contents that are faithful to the original scene. We evaluate RealFill on a new image completion benchmark that covers a set of diverse and challenging scenarios, and find that it outperforms existing approaches by a large margin. Project page: https://realfill.github.io
- Abstract(参考訳): 生成画像の最近の進歩は、未知の領域で高品質で可視な画像コンテンツを生成できる、塗装や塗装のモデルを生み出している。
しかし、これらのモデルが幻覚する内容は必ずしも正体を知らないため、必ずしも非正体ではない。
本研究では,画像の欠落領域を埋める新たな画像補完手法であるRealFillを提案する。
RealFillは、シーンの参照画像のみを使用してパーソナライズされた生成的インペイントモデルである。
これらの参照画像は、対象画像と整列する必要がなく、大きく異なる視点、照明条件、カメラ開口部、画像スタイルで撮影することができる。
パーソナライズされたRealFillは、元のシーンに忠実な視覚的に魅力的なコンテンツで、ターゲット画像を完成させる。
我々はRealFillを,多様かつ困難なシナリオの集合をカバーする新しい画像補完ベンチマークで評価し,既存のアプローチよりも大きなマージンで優れていることを発見した。
プロジェクトページ: https://realfill.github.io
関連論文リスト
- How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - FaithFill: Faithful Inpainting for Object Completion Using a Single Reference Image [6.742568054626032]
FaithFillは、行方不明なオブジェクト部品を現実的に生成するための拡散ベースの塗装手法である。
本研究では,FithFillが1つの参照画像から,オブジェクトの欠落部分の忠実な生成と,背景・シーンの保存を両立させることを実証する。
論文 参考訳(メタデータ) (2024-06-12T04:45:33Z) - Text-image guided Diffusion Model for generating Deepfake celebrity
interactions [50.37578424163951]
拡散モデルは近年、非常にリアルなビジュアルコンテンツ生成を実証している。
本稿では,その点において新しい手法を考案し,検討する。
提案手法により, 現実感を脅かすことなく, 偽の視覚コンテンツを作成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-26T08:24:37Z) - Diverse Semantic Image Editing with Style Codes [6.7737387715834725]
本稿では,視覚的および部分的可視なオブジェクトを新しい機構でエンコードし,スタイルエンコーディングと最終世代における一貫性を実現するフレームワークを提案する。
提案手法は, より定量的な結果を得るとともに, 多様な結果をもたらす。
論文 参考訳(メタデータ) (2023-09-25T09:22:18Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Hybrid Neural Rendering for Large-Scale Scenes with Motion Blur [68.24599239479326]
画像ベース表現とニューラル3D表現を結合して高品質なビュー一貫性のある画像をレンダリングするハイブリッドなニューラルレンダリングモデルを開発した。
我々のモデルは、新しいビュー合成のための最先端のポイントベース手法を超越している。
論文 参考訳(メタデータ) (2023-04-25T08:36:33Z) - Fake it till you make it: Learning transferable representations from
synthetic ImageNet clones [30.264601433216246]
ImageNetクローンは、合成画像と実画像で訓練されたモデルとのギャップの大部分を埋めることができることを示す。
合成画像上で訓練されたモデルは,強い一般化特性を示し,実際のデータで訓練されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-12-16T11:44:01Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Full-Glow: Fully conditional Glow for more realistic image generation [9.30816997952245]
Full-Glowは、新しいストリートシーンの可視的で現実的なイメージを生成するための条件付きGlowアーキテクチャである。
ベンチマーク比較では,事前学習したpspnetのセグメンテーション性能の観点から,最近の研究よりも優れるモデルを示す。
論文 参考訳(メタデータ) (2020-12-10T17:37:43Z) - Conditional Image Generation and Manipulation for User-Specified Content [6.6081578501076494]
テキスト・画像生成と操作のための単一パイプラインを提案する。
パイプラインの前半では、テキストで条件付けされたモデルである textStyleGAN を導入しています。
パイプラインの第2部では、事前にトレーニングされたtextStyleGANの重みを利用して、セマンティックな顔画像操作を行います。
論文 参考訳(メタデータ) (2020-05-11T08:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。