論文の概要: Instance-Aware Image Completion
- arxiv url: http://arxiv.org/abs/2210.12350v3
- Date: Fri, 26 May 2023 09:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 23:38:52.957982
- Title: Instance-Aware Image Completion
- Title(参考訳): インスタンス対応画像補完
- Authors: Jinoh Cho, Minguk Kang, Vibhav Vineet and Jaesik Park
- Abstract要約: 我々はImCompleteと呼ばれる新しい画像補完モデルを提案する。
ImCompleteはまず、見えるインスタンスと行方不明領域の位置を考慮に入れたトランスフォーマーアーキテクチャを採用する。
その後、ImCompleteは行方不明領域内のセマンティックセマンティクスマスクを完了し、ピクセルレベルのセマンティクスと構造的ガイダンスを提供する。
- 参考スコア(独自算出の注目度): 15.64981939298373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image completion is a task that aims to fill in the missing region of a
masked image with plausible contents. However, existing image completion
methods tend to fill in the missing region with the surrounding texture instead
of hallucinating a visual instance that is suitable in accordance with the
context of the scene. In this work, we propose a novel image completion model,
dubbed ImComplete, that hallucinates the missing instance that harmonizes well
with - and thus preserves - the original context. ImComplete first adopts a
transformer architecture that considers the visible instances and the location
of the missing region. Then, ImComplete completes the semantic segmentation
masks within the missing region, providing pixel-level semantic and structural
guidance. Finally, the image synthesis blocks generate photo-realistic content.
We perform a comprehensive evaluation of the results in terms of visual quality
(LPIPS and FID) and contextual preservation scores (CLIPscore and object
detection accuracy) with COCO-panoptic and Visual Genome datasets. Experimental
results show the superiority of ImComplete on various natural images.
- Abstract(参考訳): 画像補完は、マスクされた画像の欠落領域を、妥当な内容で埋めることを目的としたタスクである。
しかし、既存の画像補完手法では、シーンのコンテキストに応じて適切な視覚的インスタンスを幻覚させるのではなく、周囲のテクスチャで不足領域を埋める傾向にある。
そこで本研究では,不完全という新しい画像補完モデルを提案する。
imcompleteはまず、可視インスタンスと欠落した領域の位置を考慮したtransformerアーキテクチャを採用する。
そして、欠落領域内のセマンティクスセグメンテーションマスクを完了させ、ピクセルレベルのセマンティクスと構造ガイダンスを提供する。
最後に、画像合成ブロックは、フォトリアリスティックコンテンツを生成する。
視覚的品質 (LPIPS, FID) と文脈保存スコア (CLIPスコア, オブジェクト検出精度) をCOCO-panoptic と Visual Genome のデータセットを用いて総合的に評価する。
実験の結果,ImCompleteの自然画像に対する優位性が示された。
関連論文リスト
- Structure-preserving Image Translation for Depth Estimation in Colonoscopy Video [1.0485739694839669]
本稿では,構造保存型合成現実画像(sim2real)のパイプラインを提案する。
これにより、教師付き深度推定のために、大量のリアルな合成画像を生成することができる。
また,画像翻訳のプロセスを改善するために,臨床大腸内視鏡からの手書き配列のデータセットも提案する。
論文 参考訳(メタデータ) (2024-08-19T17:02:16Z) - CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。
画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。
フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文 参考訳(メタデータ) (2022-07-23T09:03:13Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Context-Aware Image Inpainting with Learned Semantic Priors [100.99543516733341]
欠落した内容を推定するために意味的に意味のある前文タスクを導入する。
本研究では,グローバルなセマンティクスと局所的な特徴を適応的に統合した文脈認識型画像インパインティングモデルを提案する。
論文 参考訳(メタデータ) (2021-06-14T08:09:43Z) - Image Inpainting Guided by Coherence Priors of Semantics and Textures [62.92586889409379]
セマンティクスとテクスチャ間のコヒーレンスプリエンスを導入することにより、セマンティクス的な方法で別々のテクスチャを完成させることに集中できる。
また,全体構造と詳細なテクスチャの観点から,セマンティクスとインペインテッドイメージの一貫性を制約する2つのコヒーレンス損失を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:59:37Z) - Guidance and Evaluation: Semantic-Aware Image Inpainting for Mixed
Scenes [54.836331922449666]
本稿では,SGE-Net(Semantic Guidance and Evaluation Network)を提案する。
セマンティックセグメンテーションマップをインペイントの各尺度のガイダンスとして利用し、そこで位置依存推論を再評価する。
混合シーンの現実画像に対する実験により,提案手法が最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-03-15T17:49:20Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。