論文の概要: MaGIC: Multi-modality Guided Image Completion
- arxiv url: http://arxiv.org/abs/2305.11818v1
- Date: Fri, 19 May 2023 16:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:20:57.801236
- Title: MaGIC: Multi-modality Guided Image Completion
- Title(参考訳): MaGIC:マルチモダリティガイド画像コンプリート
- Authors: Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang
- Abstract要約: 本稿では,MaGICと呼ばれるマルチモーダルガイド画像コンプリートのための,新しい,シンプルかつ効果的な手法を提案する。
まず、単一モード信号をU-Netデノイザに注入するモーダリティ特化条件付きU-Net(MCU-Net)を導入する。
そこで我々は,マルチラーニングMCU-Netに符号化されたモダリティ信号を活用するために,一貫したモダリティブレンディング(CMB)法を考案した。
- 参考スコア(独自算出の注目度): 24.71562749692351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vanilla image completion approaches are sensitive to the large missing
regions due to limited available reference information for plausible
generation. To mitigate this, existing methods incorporate the extra cue as a
guidance for image completion. Despite improvements, these approaches are often
restricted to employing a single modality (e.g., segmentation or sketch maps),
which lacks scalability in leveraging multi-modality for more plausible
completion. In this paper, we propose a novel, simple yet effective method for
Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a
wide range of single modality as the guidance (e.g., text, canny edge, sketch,
segmentation, reference image, depth, and pose), but also adapts to arbitrarily
customized combination of these modalities (i.e., arbitrary multi-modality) for
image completion. For building MaGIC, we first introduce a modality-specific
conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net
denoiser for single-modal guided image completion. Then, we devise a consistent
modality blending (CMB) method to leverage modality signals encoded in multiple
learned MCU-Nets through gradient guidance in latent space. Our CMB is
training-free, and hence avoids the cumbersome joint re-training of different
modalities, which is the secret of MaGIC to achieve exceptional flexibility in
accommodating new modalities for completion. Experiments show the superiority
of MaGIC over state-of-arts and its generalization to various completion tasks
including in/out-painting and local editing. Our project with code and models
is available at yeates.github.io/MaGIC-Page/.
- Abstract(参考訳): バニラ画像補完アプローチは、可算生成のための限られた参照情報のため、大きな欠落した領域に敏感である。
これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。
改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。
本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるマジック(magic)を提案する。この手法は,ガイド(テキスト,カンニーエッジ,スケッチ,セグメンテーション,参照画像,深さ,ポーズなど)として幅広い単一モダリティをサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)の任意にカスタマイズされた組み合わせにも適応する。
MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。
そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。
我々のCMBはトレーニングフリーなので、MGICの秘密である様々なモダリティの再トレーニングを回避し、新しいモダリティの調整に優れた柔軟性を実現しています。
実験では、最先端技術よりもMaGICの方が優れており、イン/アウトペイントや局所編集など、様々な完了タスクに一般化されている。
コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z) - FormNetV2: Multimodal Graph Contrastive Learning for Form Document
Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-05-04T05:02:04Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - GLEAN: Generative Latent Bank for Image Super-Resolution and Beyond [99.6233044915999]
画像超解像の性能向上のために,StyleGAN や BigGAN などの事前学習型生成支援ネットワーク (GAN) が潜時バンクとして利用できることを示す。
我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することで、既存のプラクティスを越えている。
画像のカラー化やブラインド画像の復元など,さまざまなタスクにメソッドを拡張し,提案手法が既存の手法と比較して良好に動作することを示す。
論文 参考訳(メタデータ) (2022-07-29T17:59:01Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis [7.726465518306907]
永続的な課題は、同じ入力画像から出力画像の多様なバージョンを生成することである。
我々は,幅広いタスクに適用可能な統一アーキテクチャであるCAM-Netを提案する。
FID(Frechet Inception Distance)は、ベースラインに比べて最大45.3%低減できる。
論文 参考訳(メタデータ) (2021-06-16T17:58:13Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。