論文の概要: ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation
- arxiv url: http://arxiv.org/abs/2308.00906v1
- Date: Wed, 2 Aug 2023 01:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 14:09:25.857996
- Title: ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation
- Title(参考訳): ImageBrush: 画像操作のための視覚的インテクストインストラクションの学習
- Authors: Yasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu,
Lili Qiu and Hideki Koike
- Abstract要約: 我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
- 参考スコア(独自算出の注目度): 49.07254928141495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While language-guided image manipulation has made remarkable progress, the
challenge of how to instruct the manipulation process faithfully reflecting
human intentions persists. An accurate and comprehensive description of a
manipulation task using natural language is laborious and sometimes even
impossible, primarily due to the inherent uncertainty and ambiguity present in
linguistic expressions. Is it feasible to accomplish image manipulation without
resorting to external cross-modal language information? If this possibility
exists, the inherent modality gap would be effortlessly eliminated. In this
paper, we propose a novel manipulation methodology, dubbed ImageBrush, that
learns visual instructions for more accurate image editing. Our key idea is to
employ a pair of transformation images as visual instructions, which not only
precisely captures human intention but also facilitates accessibility in
real-world scenarios. Capturing visual instructions is particularly challenging
because it involves extracting the underlying intentions solely from visual
demonstrations and then applying this operation to a new image. To address this
challenge, we formulate visual instruction learning as a diffusion-based
inpainting problem, where the contextual information is fully exploited through
an iterative process of generation. A visual prompting encoder is carefully
devised to enhance the model's capacity in uncovering human intent behind the
visual instructions. Extensive experiments show that our method generates
engaging manipulation results conforming to the transformations entailed in
demonstrations. Moreover, our model exhibits robust generalization capabilities
on various downstream tasks such as pose transfer, image translation and video
inpainting.
- Abstract(参考訳): 言語による画像操作は著しい進歩を遂げているが、人間の意図を忠実に反映する操作プロセスをいかに指導するかという課題は続いている。
自然言語を用いた操作タスクの正確かつ包括的な記述は、言語表現に固有の不確かさと曖昧さのために、困難であり、時には不可能である。
外部モーダル言語情報に頼ることなく、画像操作を実現することは可能か?
もしこの可能性が存在するならば、固有のモダリティギャップは無益に排除されるだろう。
本稿では、より正確な画像編集のために視覚的な指示を学習する新しい操作手法imagebrushを提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えただけでなく、現実のシナリオにおけるアクセシビリティも促進する、視覚的な指示として変換画像のペアを使用することです。
視覚的な指示をキャプチャすることは、視覚的なデモンストレーションからのみ基礎となる意図を抽出し、その操作を新しいイメージに適用することを含むため、特に難しい。
この課題に対処するために,視覚インストラクション学習を拡散に基づくインペインティング問題として定式化し,反復的な生成過程を通じて文脈情報を十分に活用する。
視覚刺激エンコーダは、視覚指示の背後にある人間の意図を明らかにする際のモデルの能力を高めるために慎重に考案される。
広範な実験により,本手法は実演に伴う変換に準拠した操作結果を生成することが示された。
さらに,ポーズ転送や画像翻訳,映像のインパインティングなど,さまざまな下流タスクに対して,ロバストな一般化機能を示す。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Text Guided Image Editing with Automatic Concept Locating and Forgetting [27.70615803908037]
画像中の潜在的なターゲット概念を特定するために,Locate and Forget (LaF) と呼ばれる新しい手法を提案する。
本手法はベースラインと比較して,テキスト誘導画像編集作業において質的かつ定量的に優位性を示す。
論文 参考訳(メタデータ) (2024-05-30T05:36:32Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - ChatFace: Chat-Guided Real Face Editing via Diffusion Latent Space
Manipulation [22.724306705927095]
そこで本研究では,テキスト駆動による画像編集をセマンティック潜時空間の拡散モデルで行う手法を提案する。
拡散モデルの時間的特徴を生成過程における意味条件と整合させることにより,安定な操作戦略を導入する。
我々はChatFaceという対話型システムを開発し、大きな言語モデルのゼロショット推論能力を組み合わせて効率的な操作を行う。
論文 参考訳(メタデータ) (2023-05-24T05:28:37Z) - Target-Free Text-guided Image Manipulation [30.3884508895415]
そこで我々は,興味のある画像領域の編集方法と場所を実現するために,循環操作型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタは、入力画像の識別と完了を学習する。
出力画像の意味的正当性を検証するために、クロスモーダルインタプリタと推論器が配置される。
論文 参考訳(メタデータ) (2022-11-26T11:45:30Z) - Remember What You have drawn: Semantic Image Manipulation with Memory [84.74585786082388]
本稿では,リアルでテキスト変換された画像を生成するメモリベースの画像操作ネットワーク(MIM-Net)を提案する。
頑健なメモリを学習するために,新しいランダム化メモリトレーニング損失を提案する。
4つの一般的なデータセットに対する実験は、既存のデータセットと比較して、我々の手法の優れた性能を示している。
論文 参考訳(メタデータ) (2021-07-27T03:41:59Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。