Fugu-MT 論文翻訳(概要): MaGIC: Multi-modality Guided Image Completion

論文の概要: MaGIC: Multi-modality Guided Image Completion

arxiv url: http://arxiv.org/abs/2305.11818v1
Date: Fri, 19 May 2023 16:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 13:20:57.801236
Title: MaGIC: Multi-modality Guided Image Completion
Title（参考訳）: MaGIC:マルチモダリティガイド画像コンプリート
Authors: Yongsheng Yu, Hao Wang, Tiejian Luo, Heng Fan, Libo Zhang
Abstract要約: 本稿では,MaGICと呼ばれるマルチモーダルガイド画像コンプリートのための,新しい,シンプルかつ効果的な手法を提案する。まず、単一モード信号をU-Netデノイザに注入するモーダリティ特化条件付きU-Net(MCU-Net)を導入する。そこで我々は,マルチラーニングMCU-Netに符号化されたモダリティ信号を活用するために,一貫したモダリティブレンディング(CMB)法を考案した。
参考スコア（独自算出の注目度）: 24.71562749692351
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The vanilla image completion approaches are sensitive to the large missing regions due to limited available reference information for plausible generation. To mitigate this, existing methods incorporate the extra cue as a guidance for image completion. Despite improvements, these approaches are often restricted to employing a single modality (e.g., segmentation or sketch maps), which lacks scalability in leveraging multi-modality for more plausible completion. In this paper, we propose a novel, simple yet effective method for Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a wide range of single modality as the guidance (e.g., text, canny edge, sketch, segmentation, reference image, depth, and pose), but also adapts to arbitrarily customized combination of these modalities (i.e., arbitrary multi-modality) for image completion. For building MaGIC, we first introduce a modality-specific conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net denoiser for single-modal guided image completion. Then, we devise a consistent modality blending (CMB) method to leverage modality signals encoded in multiple learned MCU-Nets through gradient guidance in latent space. Our CMB is training-free, and hence avoids the cumbersome joint re-training of different modalities, which is the secret of MaGIC to achieve exceptional flexibility in accommodating new modalities for completion. Experiments show the superiority of MaGIC over state-of-arts and its generalization to various completion tasks including in/out-painting and local editing. Our project with code and models is available at yeates.github.io/MaGIC-Page/.
Abstract（参考訳）: バニラ画像補完アプローチは、可算生成のための限られた参照情報のため、大きな欠落した領域に敏感である。これを軽減するため、既存の手法では、追加のヒントを画像補完のガイダンスとして取り入れている。改善されているにもかかわらず、これらのアプローチは単一のモダリティ(例えば、セグメンテーションやスケッチマップ)を使うことに制限されることが多い。本稿では,マルチモーダル画像補完のための新しい,かつ効果的な手法であるマジック(magic)を提案する。この手法は,ガイド(テキスト,カンニーエッジ,スケッチ,セグメンテーション,参照画像,深さ,ポーズなど)として幅広い単一モダリティをサポートするだけでなく,これらのモダリティ(任意のマルチモダリティ)の任意にカスタマイズされた組み合わせにも適応する。 MaGICを構築するために、まず、単一のモーダル誘導画像補完のために単一モーダル信号をU-Netデノイザに注入するモーダル固有条件付きU-Net(MCU-Net)を導入する。そこで我々は,複数の学習したMCU-Netに符号化されたモダリティ信号を活用するための一貫したモダリティブレンディング(CMB)法を提案する。我々のCMBはトレーニングフリーなので、MGICの秘密である様々なモダリティの再トレーニングを回避し、新しいモダリティの調整に優れた柔軟性を実現しています。実験では、最先端技術よりもMaGICの方が優れており、イン/アウトペイントや局所編集など、様々な完了タスクに一般化されている。コードとモデルを使ったプロジェクトはyeates.github.io/MaGIC-Page/で利用可能です。

関連論文リスト

BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-04T08:04:58Z)
FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:27:12Z)
ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。 LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文参考訳（メタデータ） (2025-03-06T14:00:59Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。 MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文参考訳（メタデータ） (2024-12-27T02:39:50Z)
Is Contrastive Distillation Enough for Learning Comprehensive 3D Representations? [55.99654128127689]
クロスモーダル・コントラスト蒸留は近年,有効3次元表現の学習のために研究されている。既存の手法は主にモーダリティ共有の特徴に焦点を合わせ、事前学習過程におけるモーダリティ固有の特徴を無視している。本稿では,これらの欠点に対処する新しいフレームワークCMCRを提案する。
論文参考訳（メタデータ） (2024-12-12T06:09:49Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文参考訳（メタデータ） (2024-08-20T09:58:30Z)
Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文参考訳（メタデータ） (2024-07-23T07:29:57Z)
Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文参考訳（メタデータ） (2024-04-03T23:20:40Z)
Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。 AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。 AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2024-03-12T11:48:49Z)
ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文参考訳（メタデータ） (2023-09-07T17:59:45Z)
FormNetV2: Multimodal Graph Contrastive Learning for Form Document Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。 FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2023-05-04T05:02:04Z)
Mitigating Modality Collapse in Multimodal VAEs via Impartial Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文参考訳（メタデータ） (2022-06-09T13:29:25Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)
Large Scale Image Completion via Co-Modulated Generative Adversarial Networks [18.312552957727828]
画像条件と最近の非条件生成アーキテクチャのギャップを埋める汎用的な新しいアプローチを提案する。また,画像補完のための定量的指標が不十分なため,Paired/Unpaired Inception Discriminative Score (P-IDS/U-IDS)を提案する。実験は、自由形式の画像補完における最先端の手法よりも品質と多様性の両面で優れた性能を示し、画像から画像への変換を容易に一般化する。
論文参考訳（メタデータ） (2021-03-18T17:59:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。