論文の概要: MaGIC: Multi-modality Guided Image Completion
- arxiv url: http://arxiv.org/abs/2305.11818v1
- Date: Fri, 19 May 2023 16:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:20:57.801236
- Title: MaGIC: Multi-modality Guided Image Completion
- Title(参考訳): MaGIC:マルチモダリティガイド画像コンプリート
- Authors: Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang
- Abstract要約: 本稿では,MaGICと呼ばれるマルチモーダルガイド画像コンプリートのための,新しい,シンプルかつ効果的な手法を提案する。
まず、単一モード信号をU-Netデノイザに注入するモーダリティ特化条件付きU-Net(MCU-Net)を導入する。
そこで我々は,マルチラーニングMCU-Netに符号化されたモダリティ信号を活用するために,一貫したモダリティブレンディング(CMB)法を考案した。
- 参考スコア(独自算出の注目度): 24.71562749692351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vanilla image completion approaches are sensitive to the large missing
regions due to limited available reference information for plausible
generation. To mitigate this, existing methods incorporate the extra cue as a
guidance for image completion. Despite improvements, these approaches are often
restricted to employing a single modality (e.g., segmentation or sketch maps),
which lacks scalability in leveraging multi-modality for more plausible
completion. In this paper, we propose a novel, simple yet effective method for
Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a
wide range of single modality as the guidance (e.g., text, canny edge, sketch,
segmentation, reference image, depth, and pose), but also adapts to arbitrarily
customized combination of these modalities (i.e., arbitrary multi-modality) for
image completion. For building MaGIC, we first introduce a modality-specific
conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net
denoiser for single-modal guided image completion. Then, we devise a consistent
modality blending (CMB) method to leverage modality signals encoded in multiple
learned MCU-Nets through gradient guidance in latent space. Our CMB is
training-free, and hence avoids the cumbersome joint re-training of different
modalities, which is the secret of MaGIC to achieve exceptional flexibility in
accommodating new modalities for completion. Experiments show the superiority
of MaGIC over state-of-arts and its generalization to various completion tasks
including in/out-painting and local editing. Our project with code and models
is available at yeates.github.io/MaGIC-Page/.
- Abstract(参考訳): バニラ画像補完アプローチは、可算生成のための限られた参照情報のため、大きな欠落した領域に敏感である。
これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。
改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。
本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるマジック(magic)を提案する。この手法は,ガイド(テキスト,カンニーエッジ,スケッチ,セグメンテーション,参照画像,深さ,ポーズなど)として幅広い単一モダリティをサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)の任意にカスタマイズされた組み合わせにも適応する。
MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。
そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。
我々のCMBはトレーニングフリーなので、MGICの秘密である様々なモダリティの再トレーニングを回避し、新しいモダリティの調整に優れた柔軟性を実現しています。
実験では、最先端技術よりもMaGICの方が優れており、イン/アウトペイントや局所編集など、様々な完了タスクに一般化されている。
コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。
関連論文リスト
- MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。
既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。
本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文 参考訳(メタデータ) (2024-12-12T06:09:49Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。
本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。
実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文 参考訳(メタデータ) (2024-07-23T07:29:57Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z) - FormNetV2: Multimodal Graph Contrastive Learning for Form Document
Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-05-04T05:02:04Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Large Scale Image Completion via Co-Modulated Generative Adversarial
Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。
また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。
実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文 参考訳(メタデータ) (2021-03-18T17:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。