Fugu-MT 論文翻訳(概要): UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

論文の概要: UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency

arxiv url: http://arxiv.org/abs/2412.15216v1
Date: Thu, 19 Dec 2024 18:59:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.288821
Title: UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency
Title（参考訳）: UIP2P: サイクル編集一貫性による教師なしインストラクションベースの画像編集
Authors: Enis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari,
Abstract要約: 本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
参考スコア（独自算出の注目度）: 69.33072075580483
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose an unsupervised model for instruction-based image editing that eliminates the need for ground-truth edited images during training. Existing supervised methods depend on datasets containing triplets of input image, edited image, and edit instruction. These are generated by either existing editing methods or human-annotations, which introduce biases and limit their generalization ability. Our method addresses these challenges by introducing a novel editing mechanism called Cycle Edit Consistency (CEC), which applies forward and backward edits in one training step and enforces consistency in image and attention spaces. This allows us to bypass the need for ground-truth edited images and unlock training for the first time on datasets comprising either real image-caption pairs or image-caption-edit triplets. We empirically show that our unsupervised technique performs better across a broader range of edits with high fidelity and precision. By eliminating the need for pre-existing datasets of triplets, reducing biases associated with supervised methods, and proposing CEC, our work represents a significant advancement in unblocking scaling of instruction-based image editing.
Abstract（参考訳）: 本研究では,教師なしの教師なし画像編集モデルを提案する。既存の教師付き手法は、入力画像のトリプレット、編集画像、編集命令を含むデータセットに依存している。これらは、バイアスを導入し、一般化能力を制限する、既存の編集方法または人間のアノテーションによって生成される。本稿では,CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。これにより、地上で編集された画像の必要性を回避し、実際の画像キャプチャペアまたは画像キャプチャのトリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。我々は、我々の教師なしの手法が、高い忠実度と精度で幅広い編集範囲でより優れた性能を発揮することを実証的に示す。既存の三重項のデータセットの必要性を排除し,教師付き手法によるバイアスを低減し,CECを提案することにより,命令ベースの画像編集の非ブロック化における大きな進展を示す。

関連論文リスト

Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing [25.8179737362091]
既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-05T05:19:40Z)
Image-Editing Specialists: An RLAIF Approach for Diffusion Models [28.807572302899004]
本稿では,特殊命令に基づく画像編集拡散モデルを訓練するための新しいアプローチを提案する。拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。実験結果から, 複雑なシーンにおいて, 10ステップで複雑な編集を行うことができることがわかった。
論文参考訳（メタデータ） (2025-04-17T10:46:39Z)
Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文参考訳（メタデータ） (2024-12-30T16:56:44Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
ControlEdit: A MultiModal Local Clothing Image Editing Method [3.6604114810930946]
マルチモーダル・衣料品画像編集(マルチモーダル・衣料品画像編集、英: Multimodal clothing image editing)とは、テキスト記述や視覚画像を制御条件として用いた衣服画像の精密な調整と修正をいう。衣料品画像のマルチモーダルな局所的塗り絵に衣料品画像の編集を転送する新しい画像編集方法である制御編集を提案する。
論文参考訳（メタデータ） (2024-09-23T05:34:59Z)
ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing [77.12834553200632]
本稿ではReasonPix2Pixを紹介した。データセットの特徴は,1)推論命令,2)細かなカテゴリのよりリアルな画像,3)入力画像と編集画像のばらつきの増大である。教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-05-18T06:03:42Z)
InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文参考訳（メタデータ） (2024-03-27T15:03:38Z)
Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。外観と構造情報の融合のための統合自己認識機構を導入する。
論文参考訳（メタデータ） (2024-01-04T08:21:30Z)
BARET : Balanced Attention based Real image Editing driven by Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。 I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文参考訳（メタデータ） (2023-12-09T07:18:23Z)
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文参考訳（メタデータ） (2023-12-04T06:25:06Z)
Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文参考訳（メタデータ） (2023-10-29T20:39:11Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。