Fugu-MT 論文翻訳(概要): IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

論文の概要: IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts

arxiv url: http://arxiv.org/abs/2408.03209v1
Date: Tue, 6 Aug 2024 14:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-07 13:58:07.387038
Title: IPAdapter-Instruct: Resolving Ambiguity in Image-based Conditioning using Instruct Prompts
Title（参考訳）: IPAdapter-Instruct:Instruct Promptsを用いた画像ベースコンディショニングにおける曖昧性の解消
Authors: Ciara Rowles, Shimon Vainer, Dante De Nigris, Slava Elizarov, Konstantin Kutsy, Simon Donné,
Abstract要約: IPAdapter-Instructは、自然画像の条件付けとInstruct'のプロンプトを組み合わせることで、同じ条件付け画像の解釈を切り替える。タスクごとの専用モデルと比較して、品質の損失を最小限に抑えた複数のタスクを効率的に学習する。
参考スコア（独自算出の注目度）: 1.8692054990918074
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models continuously push the boundary of state-of-the-art image generation, but the process is hard to control with any nuance: practice proves that textual prompts are inadequate for accurately describing image style or fine structural details (such as faces). ControlNet and IPAdapter address this shortcoming by conditioning the generative process on imagery instead, but each individual instance is limited to modeling a single conditional posterior: for practical use-cases, where multiple different posteriors are desired within the same workflow, training and using multiple adapters is cumbersome. We propose IPAdapter-Instruct, which combines natural-image conditioning with ``Instruct'' prompts to swap between interpretations for the same conditioning image: style transfer, object extraction, both, or something else still? IPAdapterInstruct efficiently learns multiple tasks with minimal loss in quality compared to dedicated per-task models.
Abstract（参考訳）: 拡散モデルは、常に最先端の画像生成の境界を押し上げるが、その過程はいかなるニュアンスでも制御することは困難である。 ControlNetとIPAdapterは、画像に生成プロセスを条件付けすることでこの欠点に対処するが、個々のインスタンスは単一の条件付き後部モデリングに限られる。 IPAdapter-Instructは、自然像条件と ``Instruct'' プロンプトを組み合わせることで、同じ条件画像の解釈(スタイル転送、オブジェクト抽出、両方、あるいは他のもの)を交換する。 IPAdapterInstructは、タスクごとの専用モデルと比較して、品質が最小限に抑えられた複数のタスクを効率的に学習する。

関連論文リスト

Instruct-CLIP: Improving Instruction-Guided Image Editing with Automated Data Refinement Using Contrastive Learning [13.596657508317275]
Instruct-CLIPは、オリジナルの画像と編集された画像間のセマンティックな変化を学習し、既存のデータセットの命令を洗練し、より良く調整する自己教師型手法である。 Instruct-CLIPを使用して、InstructPix2Pixデータセットを修正し、120K以上の洗練されたサンプルを取得して、モデルを微調整します。
論文参考訳（メタデータ） (2025-03-24T07:25:44Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
Appearance Matching Adapter for Exemplar-based Semantic Image Synthesis in-the-Wild [29.23745176017559]
例題ベースセマンティック画像合成は、例題の外観を保ちながら意味内容と整合した画像を生成する。最近のチューニングフリーアプローチでは、暗黙のクロスイメージマッチングを通じて局所的な外観を転送することでこの問題に対処している。そこで本稿では,AM-Adapterを用いて,先進的なセマンティック画像合成手法を提案する。
論文参考訳（メタデータ） (2024-12-04T09:17:47Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models [11.105763635691641]
テキストプロンプトの代替として、画像プロンプトがある。我々は、事前訓練されたテキスト・画像拡散モデルに対して、画像のプロンプト機能を実現するための、効果的で軽量なアダプタであるIP-Adapterを提案する。
論文参考訳（メタデータ） (2023-08-13T08:34:51Z)
Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文参考訳（メタデータ） (2022-12-13T01:36:56Z)
UMFuse: Unified Multi View Fusion for Human Editing applications [36.94334399493266]
複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
論文参考訳（メタデータ） (2022-11-17T05:09:58Z)
AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文参考訳（メタデータ） (2022-09-07T13:53:54Z)
EdiBERT, a generative model for image editing [12.605607949417033]
EdiBERTは、ベクトル量子化オートエンコーダによって構築された離散潜在空間で訓練された双方向変換器である。結果のモデルが,多種多様なタスクにおける最先端のパフォーマンスと一致することを示す。
論文参考訳（メタデータ） (2021-11-30T10:23:06Z)
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文参考訳（メタデータ） (2021-11-06T18:09:22Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [84.88106370842883]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。 CLIP-Adapterは新たなボトルネックレイヤを採用して、新機能を学び、残留スタイルの機能ブレンディングを実行する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。