論文の概要: MaGIC: Multi-modality Guided Image Completion
- arxiv url: http://arxiv.org/abs/2305.11818v2
- Date: Tue, 21 Nov 2023 18:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:15:34.987946
- Title: MaGIC: Multi-modality Guided Image Completion
- Title(参考訳): MaGIC:マルチモダリティガイド画像コンプリート
- Authors: Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang
- Abstract要約: バニラ画像補完法は、大きな欠損領域に対して感度を示す。
本稿では,MaGICと呼ばれるマルチモーダルガイド画像コンプリートのための,新しい,シンプルかつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 24.587047174107322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vanilla image completion approaches exhibit sensitivity to large missing
regions, attributed to the limited availability of reference information for
plausible generation. To mitigate this, existing methods incorporate the extra
cue as a guidance for image completion. Despite improvements, these approaches
are often restricted to employing a single modality (e.g., segmentation or
sketch maps), which lacks scalability in leveraging multi-modality for more
plausible completion. In this paper, we propose a novel, simple yet effective
method for Multi-modal Guided Image Completion, dubbed MaGIC, which not only
supports a wide range of single modality as the guidance (e.g., text, canny
edge, sketch, segmentation, depth, and pose), but also adapts to arbitrarily
customized combination of these modalities (i.e., arbitrary multi-modality) for
image completion. For building MaGIC, we first introduce a modality-specific
conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net
denoiser for single-modal guided image completion. Then, we devise a consistent
modality blending (CMB) method to leverage modality signals encoded in multiple
learned MCU-Nets through gradient guidance in latent space. Our CMB is
training-free, thereby avoids the cumbersome joint re-training of different
modalities, which is the secret of MaGIC to achieve exceptional flexibility in
accommodating new modalities for completion. Experiments show the superiority
of MaGIC over state-of-the-art methods and its generalization to various
completion tasks. Our project with code and models is available at
yeates.github.io/MaGIC-Page/.
- Abstract(参考訳): バニラ画像補完アプローチは、可塑性生成のための参照情報の限られた可用性に起因する、大きな欠落した領域に対する感度を示す。
これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。
改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。
本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるmagicを提案する。この手法は,ガイドとして広い範囲の単一モダリティ(テキスト,キャニーエッジ,スケッチ,セグメンテーション,深さ,ポーズなど)をサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)を任意に組み合わせて画像補完に適応させる。
MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。
そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。
当社のcmbはトレーニングフリーであり,異なるモダリティの再トレーニングを煩雑に回避し,新たなモダリティを補完するための特別な柔軟性を実現する魔法の秘密である。
実験では、最先端手法よりもMaGICの方が優れており、様々な完了タスクへの一般化が示されている。
コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。
関連論文リスト
- MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。
本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。
実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文 参考訳(メタデータ) (2024-07-23T07:29:57Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z) - FormNetV2: Multimodal Graph Contrastive Learning for Form Document
Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-05-04T05:02:04Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。