論文の概要: Towards Scalable Human-aligned Benchmark for Text-guided Image Editing
- arxiv url: http://arxiv.org/abs/2505.00502v1
- Date: Thu, 01 May 2025 13:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.30648
- Title: Towards Scalable Human-aligned Benchmark for Text-guided Image Editing
- Title(参考訳): テキスト誘導画像編集のためのスケーラブルなヒューマンアライメントベンチマークを目指して
- Authors: Suho Ryu, Kihyun Kim, Eugene Baek, Dongsoo Shin, Joonseok Lee,
- Abstract要約: テキストガイド画像編集のためのHATIE(Human-Aligned benchmark for Text-Guided Image Editing)を提案する。
HATIEは、完全に自動化された全方位評価パイプラインを提供する。
我々は、HATIEの評価が、実際に様々な側面において人間と一致していることを実証的に検証した。
- 参考スコア(独自算出の注目度): 9.899869794429579
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A variety of text-guided image editing models have been proposed recently. However, there is no widely-accepted standard evaluation method mainly due to the subjective nature of the task, letting researchers rely on manual user study. To address this, we introduce a novel Human-Aligned benchmark for Text-guided Image Editing (HATIE). Providing a large-scale benchmark set covering a wide range of editing tasks, it allows reliable evaluation, not limited to specific easy-to-evaluate cases. Also, HATIE provides a fully-automated and omnidirectional evaluation pipeline. Particularly, we combine multiple scores measuring various aspects of editing so as to align with human perception. We empirically verify that the evaluation of HATIE is indeed human-aligned in various aspects, and provide benchmark results on several state-of-the-art models to provide deeper insights on their performance.
- Abstract(参考訳): 近年,様々なテキスト誘導画像編集モデルが提案されている。
しかし、主に課題の主観的な性質から広く受け入れられている標準評価手法は存在せず、研究者は手作業によるユーザスタディに頼っている。
そこで本研究では,HATIE(Text-Guided Image Editing)のための新しいHuman-Alignedベンチマークを提案する。
広範囲の編集タスクをカバーする大規模なベンチマークセットを提供することで、信頼性の高い評価が可能になる。
また、HATIEは完全に自動化され、全方位評価パイプラインを提供する。
特に、人間の知覚に合わせるために、編集の様々な側面を測定する複数のスコアを組み合わせる。
実験により,HATIEの評価は様々な面において人間と一致していることが確認され,その性能についてより深い洞察を提供するために,いくつかの最先端モデルのベンチマーク結果が得られた。
関連論文リスト
- Evaluating Text-to-Image Synthesis with a Conditional Fréchet Distance [8.216807467478281]
テキストと画像の合成を評価することは、確立されたメトリクスと人間の嗜好の相違により困難である。
視覚的忠実度とテキストプロンプトアライメントの両方を考慮に入れた指標であるcFreDを提案する。
本研究は,テキスト・ツー・イメージ・モデルの体系的評価のための,堅牢で将来性の高い指標として,cFreDを検証した。
論文 参考訳(メタデータ) (2025-03-27T17:35:14Z) - Gamma: Toward Generic Image Assessment with Mixture of Assessment Experts [23.48816491333345]
textbfGeneric imtextbfAge AssessmenttextbfMentモデルであるtextbfGammaは、ミックスデータセットのトレーニングを通じて、さまざまなシーンからのイメージを効果的に評価することができる。
Gammaモデルは、6つの画像アセスメントシナリオにまたがる12のデータセットでトレーニングされ、評価されます。
論文 参考訳(メタデータ) (2025-03-09T16:07:58Z) - Towards More Accurate Personalized Image Generation: Addressing Overfitting and Evaluation Bias [52.590072198551944]
画像パーソナライズの目的は、ユーザが提供する課題に基づいて画像を作成することである。
現在の手法では、テキストプロンプトへの忠実性を保証する上で、課題に直面している。
トレーニング画像の歪みを除去するアトラクタを組み込んだ,新たなトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2025-03-09T14:14:02Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z) - EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods [52.43439659492655]
本稿では,テキスト誘導画像編集手法を定量的に評価するための標準ベンチマークであるEditValを紹介する。
EditValは、画像のキュレートされたデータセットと、13の可能な編集タイプから抽出された各画像に対する編集可能な属性セットと、自動評価パイプラインで構成されている。
我々はEditValを用いて、SINE、Imagic、Instruct-Pix2Pixを含む8つの最先端拡散ベースの編集手法をベンチマークする。
論文 参考訳(メタデータ) (2023-10-03T20:46:10Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - TeTIm-Eval: a novel curated evaluation data set for comparing
text-to-image models [1.1252184947601962]
テキスト・ツー・イメージ・モデルの評価と比較は難しい問題です。
本稿では,<i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i>i>i>i>i</i>i>i>i>i>i>i</i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i>i</i>i>i>i>i</i>i>i>i</i>i>i>i</i>i>i</i>i>i</i>
初期の実験結果から,ヒト判定の精度はCLIPスコアと完全に一致していることが明らかとなった。
論文 参考訳(メタデータ) (2022-12-15T13:52:03Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。