Fugu-MT 論文翻訳(概要): InstructBrush: Learning Attention-based Instruction Optimization for Image Editing

論文の概要: InstructBrush: Learning Attention-based Instruction Optimization for Image Editing

arxiv url: http://arxiv.org/abs/2403.18660v1
Date: Wed, 27 Mar 2024 15:03:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 16:29:03.412040
Title: InstructBrush: Learning Attention-based Instruction Optimization for Image Editing
Title（参考訳）: InstructBrush: 画像編集のための意図に基づくインストラクション最適化
Authors: Ruoyu Zhao, Qingnan Fan, Fei Kou, Shuai Qin, Hong Gu, Wei Wu, Pengcheng Xu, Mingrui Zhu, Nannan Wang, Xinbo Gao,
Abstract要約: InstructBrushは命令ベースの画像編集方法の逆変換手法である。画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
参考スコア（独自算出の注目度）: 54.07526261513434
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, instruction-based image editing methods have garnered significant attention in image editing. However, despite encompassing a wide range of editing priors, these methods are helpless when handling editing tasks that are challenging to accurately describe through language. We propose InstructBrush, an inversion method for instruction-based image editing methods to bridge this gap. It extracts editing effects from exemplar image pairs as editing instructions, which are further applied for image editing. Two key techniques are introduced into InstructBrush, Attention-based Instruction Optimization and Transformation-oriented Instruction Initialization, to address the limitations of the previous method in terms of inversion effects and instruction generalization. To explore the ability of instruction inversion methods to guide image editing in open scenarios, we establish a TransformationOriented Paired Benchmark (TOP-Bench), which contains a rich set of scenes and editing types. The creation of this benchmark paves the way for further exploration of instruction inversion. Quantitatively and qualitatively, our approach achieves superior performance in editing and is more semantically consistent with the target editing effects.
Abstract（参考訳）: 近年,画像編集において,命令ベースの画像編集手法が注目されている。しかし,これらの手法は,様々な編集先を包含しているにも関わらず,言語を通して正確に記述することが困難な編集作業には役に立たない。本稿では,このギャップを埋める命令ベースの画像編集手法であるInstructBrushを提案する。既存の画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。 InstructBrush, Attention-based Instruction Optimization と Transformation-oriented Instruction Initialization の2つの重要な技術が導入された。オープンなシナリオで画像編集を指導するインバージョン手法を探索するため,豊富なシーンと編集タイプを含む変換指向ペアドベンチマーク(TOP-Bench)を構築した。このベンチマークの作成は、命令逆転のさらなる探索の道を開く。定量的かつ質的に,本手法は編集性能に優れ,目的の編集効果とセマンティックに一致している。

関連論文リスト

SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing [25.8179737362091]
既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-05T05:19:40Z)
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。 FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文参考訳（メタデータ） (2025-03-25T16:59:42Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。本手法は,既存の編集方法よりも大幅に優れる。
論文参考訳（メタデータ） (2024-05-23T16:54:17Z)
AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文参考訳（メタデータ） (2023-12-13T09:45:58Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文参考訳（メタデータ） (2023-07-26T17:50:10Z)
Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models [4.855820180160146]
本稿では,画像の拡散に基づく新しい画像編集フレームワークを提案する。提案手法は,品質と速度を編集するGAN法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-05T04:39:08Z)
A Benchmark and Baseline for Language-Driven Image Editing [81.74863590492663]
まず,ローカル編集とグローバル編集の両方をサポートする新しい言語駆動画像編集データセットを提案する。本手法では,各編集操作をサブモジュールとして扱い,演算パラメータを自動的に予測する。ベンチマークとベースラインの両方を含む我々の研究は、画像編集領域をより汎用的で自由なレベルに進めると確信しています。
論文参考訳（メタデータ） (2020-10-05T20:51:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。