論文の概要: Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training
- arxiv url: http://arxiv.org/abs/2502.10064v1
- Date: Fri, 14 Feb 2025 10:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:51.413407
- Title: Hands-off Image Editing: Language-guided Editing without any Task-specific Labeling, Masking or even Training
- Title(参考訳): 手書き画像編集:タスク固有のラベリング、マスキング、トレーニング無しの言語誘導編集
- Authors: Rodrigo Santos, António Branco, João Silva, João Rodrigues,
- Abstract要約: このタスクに対する最先端のアプローチは、監視に関連する典型的なスケールアップとドメイン適応の障害に悩まされる。
そこで我々は,このようなタスク固有の監督を伴わずに,改善のためのより良い可能性を提供する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 1.9756411241355265
- License:
- Abstract: Instruction-guided image editing consists in taking an image and an instruction and deliverring that image altered according to that instruction. State-of-the-art approaches to this task suffer from the typical scaling up and domain adaptation hindrances related to supervision as they eventually resort to some kind of task-specific labelling, masking or training. We propose a novel approach that does without any such task-specific supervision and offers thus a better potential for improvement. Its assessment demonstrates that it is highly effective, achieving very competitive performance.
- Abstract(参考訳): インストラクション誘導画像編集は、画像とインストラクションを取り、そのインストラクションに従って修正されたイメージを配信する。
このタスクに対する最先端のアプローチは、典型的なスケールアップとドメイン適応の障害に悩まされ、最終的にはタスク固有のラベル付けやマスキング、トレーニングに頼ることになる。
そこで我々は,このようなタスク固有の監督を伴わずに,改善のためのより良い可能性を提供する新しいアプローチを提案する。
その評価は、非常に効果的であり、非常に競争力のあるパフォーマンスを実現していることを示している。
関連論文リスト
- PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - Leveraging LLMs for On-the-Fly Instruction Guided Image Editing [1.9124587648648526]
本研究では,命令誘導画像編集をオンザフライで行うための準備不要な手法を提案する。
本手法は,MAGICBRUSHデータセットで評価した場合に,この課題に対する技術モデルの有効性と競争性を示すものである。
論文 参考訳(メタデータ) (2024-03-12T18:12:50Z) - InstructGIE: Towards Generalizable Image Editing [34.83188723673297]
一般化ロバスト性を高めた新しい画像編集フレームワークを提案する。
このフレームワークには、VMamba Blockを利用して、画像編集タスクに特別に最適化されたモジュールが組み込まれている。
また、生成された画像の劣化した詳細に対処し、修正するために特別に設計された、選択的な領域マッチング技術も披露する。
論文 参考訳(メタデータ) (2024-03-08T03:43:04Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - Target-Free Text-guided Image Manipulation [30.3884508895415]
そこで我々は,興味のある画像領域の編集方法と場所を実現するために,循環操作型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタは、入力画像の識別と完了を学習する。
出力画像の意味的正当性を検証するために、クロスモーダルインタプリタと推論器が配置される。
論文 参考訳(メタデータ) (2022-11-26T11:45:30Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。