論文の概要: LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair
- arxiv url: http://arxiv.org/abs/2411.19156v1
- Date: Thu, 28 Nov 2024 13:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:07.735287
- Title: LoRA of Change: Learning to Generate LoRA for the Editing Instruction from A Single Before-After Image Pair
- Title(参考訳): LoRA of Change: イメージペアを1つにまとめて編集するLoRAの学習
- Authors: Xue Song, Jiequan Cui, Hanwang Zhang, Jiaxin Shi, Jingjing Chen, Chi Zhang, Yu-Gang Jiang,
- Abstract要約: 視覚的指示を用いた画像編集のためのLoRA of Change (LoC) フレームワークを提案する。
我々は、命令固有のLoRAを学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
本モデルでは,ユーザ意図に整合した高品質な画像を生成し,現実世界の視覚的指示の幅広い範囲をサポートする。
- 参考スコア(独自算出の注目度): 116.48684498656871
- License:
- Abstract: In this paper, we propose the LoRA of Change (LoC) framework for image editing with visual instructions, i.e., before-after image pairs. Compared to the ambiguities, insufficient specificity, and diverse interpretations of natural language, visual instructions can accurately reflect users' intent. Building on the success of LoRA in text-based image editing and generation, we dynamically learn an instruction-specific LoRA to encode the "change" in a before-after image pair, enhancing the interpretability and reusability of our model. Furthermore, generalizable models for image editing with visual instructions typically require quad data, i.e., a before-after image pair, along with query and target images. Due to the scarcity of such quad data, existing models are limited to a narrow range of visual instructions. To overcome this limitation, we introduce the LoRA Reverse optimization technique, enabling large-scale training with paired data alone. Extensive qualitative and quantitative experiments demonstrate that our model produces high-quality images that align with user intent and support a broad spectrum of real-world visual instructions.
- Abstract(参考訳): 本稿では,視覚的命令を用いた画像編集のためのLoRA of Change(LoC)フレームワークを提案する。
曖昧さ、不十分な特異性、および自然言語の多様な解釈と比較すると、視覚的指示はユーザの意図を正確に反映することができる。
テキストベースの画像編集・生成におけるLoRAの成功に基づいて、命令固有のLoRAを動的に学習し、事前のイメージペアで「変更」を符号化し、モデルの解釈可能性と再利用性を高める。
さらに、視覚的指示を伴う画像編集のための一般化可能なモデルは、通常クワッドデータ、すなわち、クエリとターゲット画像とともに、事前画像ペアを必要とする。
このようなクワッドデータが不足しているため、既存のモデルは限られた範囲の視覚的指示に限られている。
この制限を克服するために,ペアデータのみを用いた大規模トレーニングを可能にする LoRA Reverse 最適化手法を導入する。
広範に定性的かつ定量的な実験により、我々のモデルは、ユーザの意図と整合し、現実世界の視覚的指示の幅広い範囲をサポートする高品質な画像を生成することを示した。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Lateralization LoRA: Interleaved Instruction Tuning with Modality-Specialized Adaptations [45.800383191637785]
LeafInstructは、10以上のドメインで30,000以上の高品質なインスタンスを持つ最初のオープンソースインターリーブ型インストラクションチューニングデータである。
本稿では,脳の側方化の概念に触発された新しいモダリティ特化適応法である横方向化LoRAを提案する。
本稿では,LeafInstruct データセット上で,Larialization LoRA を用いて VLG (EMU2) の命令チューニングを行う。
論文 参考訳(メタデータ) (2024-07-04T03:28:22Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Reference-based Image Composition with Sketch via Structure-aware
Diffusion Model [38.1193912666578]
本稿では,参照画像とともに,スケッチを新しいモーダルとして組み込んだマルチインプット条件画像合成モデルを提案する。
スケッチを用いたエッジレベル制御により,画像サブパートの編集や編集が可能である。
筆者らのフレームワークは,スケッチ指導を維持しつつ,参照画像を用いて学習済み拡散モデルを微調整し,欠落した領域を完了させる。
論文 参考訳(メタデータ) (2023-03-31T06:12:58Z) - InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。
入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。
入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:43Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Image Difference Captioning with Pre-training and Contrastive Learning [45.59621065755761]
画像差分キャプション(IDC)タスクは、自然言語と類似した2つの画像の視覚的差異を記述することを目的としている。
このタスクの主な課題は、1)より強力な視覚と言語関連を学習する必要のある、きめ細かい視覚的差異、2)手動アノテーションのコストの2つの側面にある。
本稿では,これらの課題に対処するために,事前学習ファインタニングパラダイムに基づく新しいモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-09T06:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。