論文の概要: PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM
- arxiv url: http://arxiv.org/abs/2410.05710v1
- Date: Tue, 8 Oct 2024 06:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 13:19:50.238795
- Title: PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM
- Title(参考訳): PixLens: オブジェクト検出+SAMによる拡散ベースの画像編集におけるアンタングル評価のための新しいフレームワーク
- Authors: Stefan Stefanache, Lluís Pastor Pérez, Julen Costa Watanabe, Ernesto Sanchez Tejedor, Thomas Hofmann, Enis Simsar,
- Abstract要約: 拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
- 参考スコア(独自算出の注目度): 17.89238060470998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating diffusion-based image-editing models is a crucial task in the field of Generative AI. Specifically, it is imperative to assess their capacity to execute diverse editing tasks while preserving the image content and realism. While recent developments in generative models have opened up previously unheard-of possibilities for image editing, conducting a thorough evaluation of these models remains a challenging and open task. The absence of a standardized evaluation benchmark, primarily due to the inherent need for a post-edit reference image for evaluation, further complicates this issue. Currently, evaluations often rely on established models such as CLIP or require human intervention for a comprehensive understanding of the performance of these image editing models. Our benchmark, PixLens, provides a comprehensive evaluation of both edit quality and latent representation disentanglement, contributing to the advancement and refinement of existing methodologies in the field.
- Abstract(参考訳): 拡散に基づく画像編集モデルの評価は、生成AI分野における重要な課題である。
具体的には、画像の内容とリアリズムを保ちながら、多様な編集タスクを実行する能力を評価することが不可欠である。
近年の生成モデル開発は画像編集の可能性を秘めているが、これらのモデルの徹底的な評価は依然として困難かつオープンな課題である。
標準化された評価ベンチマークが欠如していることは、主に、評価のために編集後参照画像を必要とするため、この問題をさらに複雑にしている。
現在、評価はCLIPのような確立したモデルに依存している場合や、これらの画像編集モデルの性能の包括的な理解のために人間の介入を必要とする場合が多い。
我々のベンチマークであるPixLensは、編集品質と潜在表現の歪みを総合的に評価し、この分野における既存の方法論の進歩と洗練に寄与する。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。
新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。
質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文 参考訳(メタデータ) (2024-03-20T12:40:32Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - Advancing Generative Model Evaluation: A Novel Algorithm for Realistic
Image Synthesis and Comparison in OCR System [1.2289361708127877]
本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。
合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。
我々のアルゴリズムは、アラビア文字の手書き数字の現実的な画像の生成と評価の課題に対処するために特に適している。
論文 参考訳(メタデータ) (2024-02-27T04:53:53Z) - Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。
本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。
ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-07T20:55:39Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z) - Counterfactual Edits for Generative Evaluation [0.0]
本稿では,画素の代わりに概念に基づく合成結果の評価と説明のためのフレームワークを提案する。
我々のフレームワークは、どのオブジェクトや属性を挿入、削除、または置き換えるべきかを下記した知識ベースの偽物編集を利用する。
局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。
論文 参考訳(メタデータ) (2023-03-02T20:10:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。