Fugu-MT 論文翻訳(概要): ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing

論文の概要: ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing

arxiv url: http://arxiv.org/abs/2405.11190v1
Date: Sat, 18 May 2024 06:03:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-21 19:07:29.591449
Title: ReasonPix2Pix: Instruction Reasoning Dataset for Advanced Image Editing
Title（参考訳）: ReasonPix2Pix: 高度な画像編集のためのインストラクション推論データセット
Authors: Ying Jin, Pengyang Ling, Xiaoyi Dong, Pan Zhang, Jiaqi Wang, Dahua Lin,
Abstract要約: 本稿ではReasonPix2Pixを紹介した。データセットの特徴は,1)推論命令,2)細かなカテゴリのよりリアルな画像,3)入力画像と編集画像のばらつきの増大である。教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。
参考スコア（独自算出の注目度）: 77.12834553200632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Instruction-based image editing focuses on equipping a generative model with the capacity to adhere to human-written instructions for editing images. Current approaches typically comprehend explicit and specific instructions. However, they often exhibit a deficiency in executing active reasoning capacities required to comprehend instructions that are implicit or insufficiently defined. To enhance active reasoning capabilities and impart intelligence to the editing model, we introduce ReasonPix2Pix, a comprehensive reasoning-attentive instruction editing dataset. The dataset is characterized by 1) reasoning instruction, 2) more realistic images from fine-grained categories, and 3) increased variances between input and edited images. When fine-tuned with our dataset under supervised conditions, the model demonstrates superior performance in instructional editing tasks, independent of whether the tasks require reasoning or not. The code, model, and dataset will be publicly available.
Abstract（参考訳）: インストラクションベースの画像編集は、画像編集のための人書き命令に従う能力を備えた生成モデルを装備することに焦点を当てる。現在のアプローチは、通常、明示的で特定の指示を理解する。しかし、暗黙的または不十分に定義された指示を理解するのに必要な能動的推論能力の実行に欠如することが多い。能動的推論能力を向上し、編集モデルにインテリジェンスを付与するために、包括的な推論注意型命令編集データセットであるReasonPix2Pixを導入する。データセットの特徴は 1)理性指導 2)細かなカテゴリのよりリアルなイメージ 3) 入力画像と編集画像のばらつきは増大した。教師付き条件下でのデータセットの微調整では、タスクが推論を必要とするか否かに関わらず、命令編集タスクにおいて優れたパフォーマンスを示す。コード、モデル、データセットが公開される。

関連論文リスト

Reasoning to Edit: Hypothetical Instruction-Based Image Editing with Visual Reasoning [52.873405027439794]
Reason50Kは、仮説的推論画像編集のトレーニングと評価のために算出された大規模なデータセットである。 ReasonBrainは、様々なシナリオにまたがる暗黙の仮説的命令を推論し実行するために設計された、新しいフレームワークである。データセットとコードは公開されます。
論文参考訳（メタデータ） (2025-07-02T17:22:21Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
InsightEdit: Towards Better Instruction Following for Image Editing [12.683378605956024]
InstructPix2Pix, InstructDiffusion, SmartEditといった以前の作業では、エンドツーエンドの編集が検討されている。 MLLM(Multimodal Large Language Models)によるテキスト的特徴と視覚的特徴の両方を利用した2ストリームブリッジ機構を提案する。 InsightEditは,従来の画像との背景の整合性を保ちながら,複雑な命令の追従に優れ,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-26T11:11:10Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。実験により、我々のマルチリワード条件付きモデルは、2つの人気のある編集パイプラインにおいて非リワードモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-06T05:02:29Z)
InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文参考訳（メタデータ） (2024-06-14T12:31:48Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Learning to Follow Object-Centric Image Editing Instructions Faithfully [26.69032113274608]
自然言語命令による画像編集に焦点をあてる現在のアプローチは、自動生成されたペアデータに依存している。我々は、ペアデータの品質を大幅に改善し、監視信号を強化する。我々のモデルは、最先端のベースラインよりもきめ細かいオブジェクト中心の編集を行うことができる。
論文参考訳（メタデータ） (2023-10-29T20:39:11Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文参考訳（メタデータ） (2022-11-17T18:58:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。