Fugu-MT 論文翻訳(概要): Pix2Pix-OnTheFly: Leveraging LLMs for Instruction-Guided Image Editing

論文の概要: Pix2Pix-OnTheFly: Leveraging LLMs for Instruction-Guided Image Editing

arxiv url: http://arxiv.org/abs/2403.08004v1
Date: Tue, 12 Mar 2024 18:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:55:10.543365
Title: Pix2Pix-OnTheFly: Leveraging LLMs for Instruction-Guided Image Editing
Title（参考訳）: Pix2Pix-OnTheFly:インストラクションガイドによる画像編集にLLMを活用する
Authors: Rodrigo Santos, Jo\~ao Silva, Ant\'onio Branco
Abstract要約: 本研究では,命令誘導画像編集をオンザフライで行うための準備不要な手法を提案する。本手法は,MAGICBRUSHデータセットで評価した場合に,この課題に対する技術モデルの有効性と競争性を示すものである。
参考スコア（独自算出の注目度）: 0.47355466227925036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The combination of language processing and image processing keeps attracting increased interest given recent impressive advances that leverage the combined strengths of both domains of research. Among these advances, the task of editing an image on the basis solely of a natural language instruction stands out as a most challenging endeavour. While recent approaches for this task resort, in one way or other, to some form of preliminary preparation, training or fine-tuning, this paper explores a novel approach: We propose a preparation-free method that permits instruction-guided image editing on the fly. This approach is organized along three steps properly orchestrated that resort to image captioning and DDIM inversion, followed by obtaining the edit direction embedding, followed by image editing proper. While dispensing with preliminary preparation, our approach demonstrates to be effective and competitive, outperforming recent, state of the art models for this task when evaluated on the MAGICBRUSH dataset.
Abstract（参考訳）: 言語処理と画像処理の組み合わせは、両方の研究領域の強みを生かした最近の印象的な進歩を考えると、関心が高まり続けている。これらの進歩の中で、自然言語命令のみに基づいて画像を編集する作業は、最も困難な取り組みとして際立っている。本研究は, 何らかの準備, 訓練, 微調整に対する近年の取り組みに対して, 新たなアプローチを提案する: 命令誘導画像編集をオンザフライで行うための, 準備不要な手法を提案する。本手法は,画像キャプションとDDIMのインバージョンを併用し,編集方向の埋め込みを行い,画像編集を適切に行う3つのステップに沿って編成される。提案手法は,予備準備を伴わずに,MAGICBRUSHデータセットを用いて評価した場合に,この課題に対する最近の最先端モデルよりも効果的かつ競争的であることが実証された。

関連論文リスト

DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-21T02:14:03Z)
Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training [1.9756411241355265]
このタスクに対する最先端のアプローチは、監視に関連する典型的なスケールアップとドメイン適応の障害に悩まされる。そこで我々は,このようなタスク固有の監督を伴わずに,改善のためのより良い可能性を提供する新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-02-14T10:41:42Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。 4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文参考訳（メタデータ） (2024-07-18T03:55:33Z)
InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文参考訳（メタデータ） (2024-03-27T15:03:38Z)
InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文参考訳（メタデータ） (2024-03-08T03:43:04Z)
BARET : Balanced Attention based Real image Editing driven by Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。 I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文参考訳（メタデータ） (2023-12-09T07:18:23Z)
Guiding Instruction-based Image Editing via Multimodal Large Language Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文参考訳（メタデータ） (2023-09-29T10:01:50Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)
Modeling Artistic Workflows for Image Generation and Editing [83.43047077223947]
与えられた芸術的ワークフローに従う生成モデルを提案する。既存の芸術作品の多段画像編集だけでなく、多段画像生成も可能である。
論文参考訳（メタデータ） (2020-07-14T17:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。