論文の概要: CoIE: Chain-of-Instruct Editing for Multi-Attribute Face Manipulation
- arxiv url: http://arxiv.org/abs/2312.07879v2
- Date: Wed, 20 Dec 2023 08:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:53:04.932316
- Title: CoIE: Chain-of-Instruct Editing for Multi-Attribute Face Manipulation
- Title(参考訳): CoIE:多属性顔操作のためのChain-of-instruct Editing
- Authors: Zhenduo Zhang, Bo-Wen Zhang, Guang Liu
- Abstract要約: 現在のテキストと画像の編集モデルは、単一の命令を使って複数の属性を滑らかに操作する問題にしばしば遭遇する。
我々は,段階的に編集することで,これらのモデルの能力を向上する,CoIE(Chain-of-Instruct Editing)と呼ばれる革新的な概念を提案する。
我々は,自己構築型指導誘導顔編集データセットであるInstruct-CelebAを用いて,編集モデルの微調整を行う。
- 参考スコア(独自算出の注目度): 8.126093866533889
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-image editing models often encounter challenges with smoothly
manipulating multiple attributes using a single instruction. Taking inspiration
from the Chain-of-Thought prompting technique utilized in language models, we
present an innovative concept known as Chain-of-Instruct Editing (CoIE), which
enhances the capabilities of these models through step-by-step editing using a
series of instructions. In particular, in the context of face manipulation, we
leverage the contextual learning abilities of a pretrained Large Language Model
(LLM), such as GPT-4, to generate a sequence of instructions from the original
input, utilizing a purpose-designed 1-shot template. To further improve the
precision of each editing step, we conduct fine-tuning on the editing models
using our self-constructed instruction-guided face editing dataset,
Instruct-CelebA. And additionally, we incorporate a super-resolution module to
mitigate the adverse effects of editability and quality degradation.
Experimental results across various challenging cases confirm the significant
boost in multi-attribute facial image manipulation using chain-of-instruct
editing. This is evident in enhanced editing success rates, measured by CLIPSim
and Coverage metrics, improved by 17.86% and 85.45% respectively, and
heightened controllability indicated by Preserve L1 and Quality metrics,
improved by 11.58% and 4.93% respectively.
- Abstract(参考訳): 現在のテキスト画像編集モデルは、単一の命令を使って複数の属性を滑らかに操作する問題にしばしば遭遇する。
言語モデルに活用されるChain-of-Instruct Editing(CoIE)からインスピレーションを得て,一連の命令を用いたステップバイステップ編集により,これらのモデルの能力を向上する,Chain-of-Instruct Editing(CoIE)と呼ばれる革新的な概念を提案する。
特に、顔操作の文脈では、GPT-4のような事前訓練された大規模言語モデル(LLM)の文脈学習能力を利用して、目的設計の1ショットテンプレートを用いて、元の入力から命令列を生成する。
編集ステップの精度をさらに向上するため,自己構築型指導誘導顔編集データセットであるInstruct-CelebAを用いて,編集モデルの微調整を行う。
さらに,編集性や品質劣化の悪影響を軽減するために,スーパーレゾリューションモジュールを組み込んだ。
様々な課題における実験結果から,チェーン・オブ・インストラクション編集による多属性顔画像操作の大幅な向上が確認された。
これは、clipsim と coverage metrics による編集成功率の向上、それぞれ 17.86% と 85.45% の改善、l1 と quality metrics の保持による制御性の向上、それぞれ 11.58% と 4.93% の改善である。
関連論文リスト
- Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - LEMoE: Advanced Mixture of Experts Adaptor for Lifelong Model Editing of Large Language Models [30.831866499812925]
大規模言語モデル(LLM)は、変化し続ける世界の事実をそのまま維持するために、継続的な知識更新を必要とする。
我々は、生涯モデル編集のための高度なMixture of Experts (MoE)アダプタLEMoEを紹介する。
論文 参考訳(メタデータ) (2024-06-28T16:17:41Z) - InstructEdit: Instruction-based Knowledge Editing for Large Language Models [39.2147118489123]
InstructEditと呼ばれる命令ベースの編集技術を開発し、簡単な命令を使って様々なタスクパフォーマンスへのエディタの適応を容易にする。
予期せぬタスクを含む実験は、InstructEditが以前の強いベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-25T15:46:33Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。