論文の概要: VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2406.01059v1
- Date: Mon, 3 Jun 2024 07:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 02:08:05.591751
- Title: VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model
- Title(参考訳): VIP:マルチモーダル大言語モデルによる画像出力
- Authors: Jinze Yang, Haoran Wang, Zining Zhu, Chenglong Liu, Meng Wymond Wu, Zeke Xie, Zhong Ji, Jungong Han, Mingming Sun,
- Abstract要約: 本研究は,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大言語モデル(MLLM)を利用する。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
- 参考スコア(独自算出の注目度): 76.02314305164595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on resolving the problem of image outpainting, which aims to extrapolate the surrounding parts given the center contents of an image. Although recent works have achieved promising performance, the lack of versatility and customization hinders their practical applications in broader scenarios. Therefore, this work presents a novel image outpainting framework that is capable of customizing the results according to the requirement of users. First of all, we take advantage of a Multimodal Large Language Model (MLLM) that automatically extracts and organizes the corresponding textual descriptions of the masked and unmasked part of a given image. Accordingly, the obtained text prompts are introduced to endow our model with the capacity to customize the outpainting results. In addition, a special Cross-Attention module, namely Center-Total-Surrounding (CTS), is elaborately designed to enhance further the the interaction between specific space regions of the image and corresponding parts of the text prompts. Note that unlike most existing methods, our approach is very resource-efficient since it is just slightly fine-tuned on the off-the-shelf stable diffusion (SD) model rather than being trained from scratch. Finally, the experimental results on three commonly used datasets, i.e. Scenery, Building, and WikiArt, demonstrate our model significantly surpasses the SoTA methods. Moreover, versatile outpainting results are listed to show its customized ability.
- Abstract(参考訳): 本稿では,画像の中心的内容から周囲の部分を外挿することを目的とした,画像の露光に関する問題の解決に焦点をあてる。
最近の研究は有望なパフォーマンスを達成したが、汎用性とカスタマイズの欠如は、より広範なシナリオにおける実践的な応用を妨げる。
そこで本研究では,ユーザの要求に応じて結果のカスタマイズが可能な,新たな画像出力フレームワークを提案する。
まず,画像のマスキング部分とマスキング部分のテキスト記述を自動的に抽出し整理するマルチモーダル大規模言語モデル(MLLM)を利用する。
そこで、得られたテキストプロンプトを導入して、出力結果のカスタマイズを可能にする。
さらに、画像の特定の空間領域とテキストプロンプトの対応する部分との相互作用を強化するために、特別にCentral-Total-Surrounding (CTS) と呼ばれるCentral-Attentionモジュールが精巧に設計されている。
既存のほとんどの手法とは異なり、本手法はスクラッチから訓練されるのではなく、オフザシェルフ安定拡散(SD)モデルでわずかに微調整されているため、非常に資源効率が高い。
最後に、Scenery、Building、WikiArtの3つの一般的なデータセットの実験結果から、私たちのモデルはSoTAの手法を大幅に上回ることを示した。
さらに、そのカスタマイズ能力を示すために、多彩なアウトペイント結果がリストアップされる。
関連論文リスト
- mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models [71.40705814904898]
本稿では,多目的なマルチモーダル大言語モデルであるmPLUG-Owl3を提案する。
具体的には、視覚と言語を共通の言語誘導意味空間に効率的に統合する新しいハイパーアテンションブロックを提案する。
論文 参考訳(メタデータ) (2024-08-09T03:25:42Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting [28.65445105418749]
我々は,前景画像の塗布における課題に対処するために設計された,先駆的なマルチエージェントフレームワークであるAnywhereを紹介した。
Anywhereには、ビジュアル言語モデル、大規模言語モデル、画像生成モデルなど、さまざまなエージェントが採用されている。
前景の塗装、「過剰想像」の緩和、前景の背景の相違の解消、多様性の向上などである。
論文 参考訳(メタデータ) (2024-04-29T11:13:37Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - UMAIR-FPS: User-aware Multi-modal Animation Illustration Recommendation Fusion with Painting Style [5.441554441737648]
ユーザ対応マルチモーダルアニメーション・イラストレーション・リコメンデーション・フュージョン(UMAIR-FPS)を提案する。
特徴抽出フェーズでは、画像特徴量に対して、画像描画スタイルの特徴と意味的特徴を結合して、デュアル出力画像エンコーダを構築する。
テキスト特徴量に対して,微調整型文変換器をベースとしたテキスト埋め込みを実現する。
マルチモーダル・フュージョン・フェーズでは,ユーザを意識したマルチモーダル・コントリビューション計測機構を提案する。
論文 参考訳(メタデータ) (2024-02-16T00:25:53Z) - Towards Language-Driven Video Inpainting via Multimodal Large Language Models [116.22805434658567]
言語駆動型ビデオインペインティングという,新たなタスクを紹介します。
インペイントプロセスのガイドには自然言語命令を使用する。
Instructionsデータセットによるビデオからの削除オブジェクトを提示する。
論文 参考訳(メタデータ) (2024-01-18T18:59:13Z) - PROMPT-IML: Image Manipulation Localization with Pre-trained Foundation
Models Through Prompt Tuning [35.39822183728463]
本稿では,改ざん画像を検出するための新しいPrompt-IMLフレームワークを提案する。
人間は、意味情報と高周波情報に基づいて、画像の真偽を識別する傾向がある。
我々のモデルは8つの典型的なフェイク画像データセットでより良い性能を得ることができる。
論文 参考訳(メタデータ) (2024-01-01T03:45:07Z) - Uni-paint: A Unified Framework for Multimodal Image Inpainting with
Pretrained Diffusion Model [19.800236358666123]
マルチモーダル・インペイントのための統一フレームワークであるUni-paintを提案する。
Uni-paintはテキスト駆動、ストローク駆動、模範駆動のインペインティングなど、さまざまなガイダンスを提供する。
提案手法は,既存の単一モーダル手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-10-11T06:11:42Z) - Highly Personalized Text Embedding for Image Manipulation by Stable
Diffusion [34.662798793560995]
高度にパーソナライズされた(PerHi)テキスト埋め込みを用いたパーソナライズ手法を提案する。
本手法では, モデル微調整や識別子を必要としないが, 背景, テクスチャ, 動きを1つの画像とターゲットテキストで操作できる。
論文 参考訳(メタデータ) (2023-03-15T17:07:45Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。