論文の概要: IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts
- arxiv url: http://arxiv.org/abs/2408.03209v1
- Date: Tue, 6 Aug 2024 14:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 13:58:07.387038
- Title: IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts
- Title(参考訳): IPAdapter-Instruct:Instruct Promptsを用いた画像ベースコンディショニングにおける曖昧性の解消
- Authors: Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné,
- Abstract要約: IPAdapter-Instructは、自然画像の条件付けとInstruct'のプロンプトを組み合わせることで、同じ条件付け画像の解釈を切り替える。
タスクごとの専用モデルと比較して、品質の損失を最小限に抑えた複数のタスクを効率的に学習する。
- 参考スコア(独自算出の注目度): 1.8692054990918074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct'' prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models.
- Abstract(参考訳): 拡散モデルは、常に最先端の画像生成の境界を押し上げるが、その過程はいかなるニュアンスでも制御することは困難である。
ControlNetとIPAdapterは、画像に生成プロセスを条件付けすることでこの欠点に対処するが、個々のインスタンスは単一の条件付き後部モデリングに限られる。
IPAdapter-Instructは、自然像条件と ``Instruct'' プロンプトを組み合わせることで、同じ条件画像の解釈(スタイル転送、オブジェクト抽出、両方、あるいは他のもの)を交換する。
IPAdapterInstructは、タスクごとの専用モデルと比較して、品質が最小限に抑えられた複数のタスクを効率的に学習する。
関連論文リスト
- UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。
具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。
UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文 参考訳(メタデータ) (2024-12-25T15:19:02Z) - Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis [29.23745176017559]
Exemplar-based semantic image synthesisは、模範画像の外観を保ちながら、与えられた意味内容に整合した画像を生成することを目的としている。
近年のチューニングフリーアプローチでは、局所的な外観を模範画像から合成画像に転送することで、この制限に対処している。
本稿では,拡張自己注意内でのクロスイメージマッチングを強化する学習可能なフレームワークであるアプレンスマッチングアダプタ (AM-Adapter) を提案する。
論文 参考訳(メタデータ) (2024-12-04T09:17:47Z) - One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image
Diffusion Models [11.105763635691641]
テキストプロンプトの代替として、画像プロンプトがある。
我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
論文 参考訳(メタデータ) (2023-08-13T08:34:51Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。