Fugu-MT 論文翻訳(概要): PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM

論文の概要: PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM

arxiv url: http://arxiv.org/abs/2410.05710v1
Date: Tue, 8 Oct 2024 06:05:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 13:19:50.238795
Title: PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM
Title（参考訳）: PixLens: オブジェクト検出+SAMによる拡散ベースの画像編集におけるアンタングル評価のための新しいフレームワーク
Authors: Stefan Stefanache, Lluís Pastor Pérez, Julen Costa Watanabe, Ernesto Sanchez Tejedor, Thomas Hofmann, Enis Simsar,
Abstract要約: 拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
参考スコア（独自算出の注目度）: 17.89238060470998
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating diffusion-based image-editing models is a crucial task in the field of Generative AI. Specifically, it is imperative to assess their capacity to execute diverse editing tasks while preserving the image content and realism. While recent developments in generative models have opened up previously unheard-of possibilities for image editing, conducting a thorough evaluation of these models remains a challenging and open task. The absence of a standardized evaluation benchmark, primarily due to the inherent need for a post-edit reference image for evaluation, further complicates this issue. Currently, evaluations often rely on established models such as CLIP or require human intervention for a comprehensive understanding of the performance of these image editing models. Our benchmark, PixLens, provides a comprehensive evaluation of both edit quality and latent representation disentanglement, contributing to the advancement and refinement of existing methodologies in the field.
Abstract（参考訳）: 拡散に基づく画像編集モデルの評価は、生成AI分野における重要な課題である。具体的には、画像の内容とリアリズムを保ちながら、多様な編集タスクを実行する能力を評価することが不可欠である。近年の生成モデル開発は画像編集の可能性を秘めているが、これらのモデルの徹底的な評価は依然として困難かつオープンな課題である。標準化された評価ベンチマークが欠如していることは、主に、評価のために編集後参照画像を必要とするため、この問題をさらに複雑にしている。現在、評価はCLIPのような確立したモデルに依存している場合や、これらの画像編集モデルの性能の包括的な理解のために人間の介入を必要とする場合が多い。我々のベンチマークであるPixLensは、編集品質と潜在表現の歪みを総合的に評価し、この分野における既存の方法論の進歩と洗練に寄与する。

関連論文リスト

What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
FragFake: A Dataset for Fine-Grained Detection of Edited Images with Vision Language Models [48.85744313139525]
FragFakeは、画像検出のための最初の専用のベンチマークデータセットである。画像分類と編集領域ローカライゼーションのタスクにおいて,視覚言語モデル(VLM)を初めて使用した。この研究は、視覚言語理解タスクとして、局所化画像編集検出を再構成した最初のものである。
論文参考訳（メタデータ） (2025-05-21T15:22:45Z)
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。 RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文参考訳（メタデータ） (2025-04-03T17:59:56Z)
The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文参考訳（メタデータ） (2025-01-08T18:59:35Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文参考訳（メタデータ） (2024-07-03T19:36:33Z)
Ground-A-Score: Scaling Up the Score Distillation for Multi-Attribute Editing [49.419619882284906]
Ground-A-Scoreは、スコア蒸留時のグラウンド処理を取り入れた強力なモデル非依存画像編集法である。新しいペナルティ係数とコントラスト損失を持つ選択的応用は、編集領域を正確にターゲットするのに役立つ。質的評価と定量的分析の両方で、Ground-A-Scoreは拡張および多面的プロンプトの複雑な詳細に順応することを確認した。
論文参考訳（メタデータ） (2024-03-20T12:40:32Z)
Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳（メタデータ） (2024-02-27T14:07:09Z)
Advancing Generative Model Evaluation: A Novel Algorithm for Realistic Image Synthesis and Comparison in OCR System [1.2289361708127877]
本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。我々のアルゴリズムは、アラビア文字の手書き数字の現実的な画像の生成と評価の課題に対処するために特に適している。
論文参考訳（メタデータ） (2024-02-27T04:53:53Z)
Counterfactual Image Editing [54.21104691749547]
対物画像編集は、生成AIにおいて重要なタスクであり、ある機能が異なる場合、画像がどのように見えるかを尋ねる。本稿では,形式言語を用いた対物画像編集タスクを形式化し,潜在生成因子と画像の因果関係をモデル化する。ニューラル因果モデルを利用して、対物画像を生成する効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-07T20:55:39Z)
High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-12-25T12:12:36Z)
Diffusion Models for Image Restoration and Enhancement -- A Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文参考訳（メタデータ） (2023-08-18T08:40:38Z)
Counterfactual Edits for Generative Evaluation [0.0]
本稿では,画素の代わりに概念に基づく合成結果の評価と説明のためのフレームワークを提案する。我々のフレームワークは、どのオブジェクトや属性を挿入、削除、または置き換えるべきかを下記した知識ベースの偽物編集を利用する。局所的な編集を蓄積したグローバルな説明は、モデルが合計で生成できない概念を明らかにすることもできる。
論文参考訳（メタデータ） (2023-03-02T20:10:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。