論文の概要: ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation
- arxiv url: http://arxiv.org/abs/2507.07317v1
- Date: Wed, 09 Jul 2025 22:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.221651
- Title: ADIEE: Automatic Dataset Creation and Scorer for Instruction-Guided Image Editing Evaluation
- Title(参考訳): ADIEE:インストラクションガイドによる画像編集評価のための自動データセット作成とスコーラ
- Authors: Sherry X. Chen, Yi Wei, Luowei Zhou, Suren Kumar,
- Abstract要約: ADIEEは自動データセット作成アプローチであり、インストラクション誘導画像編集評価のためのスコアリングモデルをトレーニングするために使用される。
我々は100万以上のサンプルを持つ大規模データセットを生成し、カスタムトークンから数値スコアを復号するために修正されたLLaVA-NeXT-8Bモデルを微調整する。
その結果得られたスコアラは、すべてのベンチマークで、すべてのオープンソースのVLMとGemini-Pro 1.5を上回っている。
- 参考スコア(独自算出の注目度): 24.766719165422156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in instruction-guided image editing underscore the need for effective automated evaluation. While Vision-Language Models (VLMs) have been explored as judges, open-source models struggle with alignment, and proprietary models lack transparency and cost efficiency. Additionally, no public training datasets exist to fine-tune open-source VLMs, only small benchmarks with diverse evaluation schemes. To address this, we introduce ADIEE, an automated dataset creation approach which is then used to train a scoring model for instruction-guided image editing evaluation. We generate a large-scale dataset with over 100K samples and use it to fine-tune a LLaVA-NeXT-8B model modified to decode a numeric score from a custom token. The resulting scorer outperforms all open-source VLMs and Gemini-Pro 1.5 across all benchmarks, achieving a 0.0696 (+17.24%) gain in score correlation with human ratings on AURORA-Bench, and improving pair-wise comparison accuracy by 4.03% (+7.21%) on GenAI-Bench and 4.75% (+9.35%) on AURORA-Bench, respectively, compared to the state-of-the-art. The scorer can act as a reward model, enabling automated best edit selection and model fine-tuning. Notably, the proposed scorer can boost MagicBrush model's average evaluation score on ImagenHub from 5.90 to 6.43 (+8.98%).
- Abstract(参考訳): 指導誘導画像編集の最近の進歩は、効果的な自動評価の必要性を浮き彫りにしている。
Vision-Language Models (VLM) は審査員として検討されているが、オープンソースモデルはアライメントに苦慮し、プロプライエタリモデルは透明性とコスト効率に欠ける。
さらに、オープンソースのVLMを微調整するための公開トレーニングデータセットは存在せず、さまざまな評価スキームを備えた小さなベンチマークのみである。
そこで本研究では,自動データセット作成手法であるADIEEを導入し,インストラクション誘導画像編集評価のためのスコアリングモデルをトレーニングする。
我々は100万以上のサンプルを持つ大規模データセットを生成し、カスタムトークンから数値スコアを復号するために修正されたLLaVA-NeXT-8Bモデルを微調整する。
その結果得られたスコアラーはすべてのベンチマークですべてのオープンソースVLMとGemini-Pro 1.5を上回り、AURORA-Benchでの人間の評価とスコアの相関は0.0696 (+17.24%)、GenAI-Benchでは4.03% (+7.21%)、AURORA-Benchでは4.75% (+9.35%)向上した。
スコアラーは報酬モデルとして機能し、自動ベスト編集選択とモデル微調整を可能にする。
特に、提案されたスコアラーは、ImagenHubにおけるMagicBrushモデルの平均評価スコアを5.90から6.43(+8.98%)に引き上げることができる。
関連論文リスト
- FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - Zephyr: Direct Distillation of LM Alignment [59.03530095974505]
ユーザ意図に合わせた,より小さな言語モデルの実現を目指しています。
従来の研究では、より大規模なモデルに教師付き微調整(dSFT)を適用することにより、タスクの精度が大幅に向上することが示されている。
蒸留直接選好最適化(dDPO)を用いて,意図のアライメントを大幅に改善したチャットモデルを学習する。
論文 参考訳(メタデータ) (2023-10-25T19:25:16Z) - Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model [13.09874563780039]
インスタンスセグメンテーションに基づく既存の手法は、大規模データ生成に拡張された場合、一般化の貧弱さに悩まされる。
本稿では,エンドツーエンドのアルゴリズムを高速な手法に変換するための新しいオフセット構築モデル(OBM)を提案する。
我々のモデルはオフセット誤差を16.6%削減し、他のモデルに比べて10.8%改善する。
論文 参考訳(メタデータ) (2023-10-25T15:44:50Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Scalable Object Detection on Embedded Devices Using Weight Pruning and
Singular Value Decomposition [0.0]
本稿では,重み付けと特異値分解(SVD)を組み合わせた物体検出モデルの最適化手法を提案する。
提案手法は,roboflow.com/roboflow-100/ Street-workから得られたストリートワークイメージのカスタムデータセットを用いて評価した。
本研究は,提案手法が精度,速度,モデルサイズのバランスを保ちながら,オブジェクト検出モデルを効果的に最適化できることを実証する。
論文 参考訳(メタデータ) (2023-03-05T18:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。