Fugu-MT 論文翻訳(概要): UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

論文の概要: UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs

arxiv url: http://arxiv.org/abs/2604.15871v1
Date: Fri, 17 Apr 2026 09:21:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.85577
Title: UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs
Title（参考訳）: UniEditBench: 拡張MLLMによる画像およびビデオ編集のための統一的で費用効果の高いベンチマーク
Authors: Lifan Jiang, Tianrun Wu, Yuhang Pei, Chenyang Wang, Boxi Wu, Deng Cai,
Abstract要約: We present UniEditBench, a unified benchmark for image and video editing。 UniEditBenchは、共有プロトコルの下で再構成と命令駆動のメソッドをサポートする。我々は,高容量MLLM判定器を軽量4B/8B評価器に蒸留し,ビデオの構造的忠実度,テキストアライメント,背景整合性,自然性,時間空間的一貫性を多次元的に評価する。
参考スコア（独自算出の注目度）: 19.634771714749544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The evaluation of visual editing models remains fragmented across methods and modalities. Existing benchmarks are often tailored to specific paradigms, making fair cross-paradigm comparisons difficult, while video editing lacks reliable evaluation benchmarks. Furthermore, common automatic metrics often misalign with human preference, yet directly deploying large multimodal models (MLLMs) as evaluators incurs prohibitive computational and financial costs. We present UniEditBench, a unified benchmark for image and video editing that supports reconstruction-based and instruction-driven methods under a shared protocol. UniEditBench includes a structured taxonomy of nine image operations (Add, Remove, Replace, Change, Stroke-based, Extract, Adjust, Count, Reorder) and eight video operations, with coverage of challenging compositional tasks such as counting and spatial reordering. To enable scalable evaluation, we distill a high-capacity MLLM judge (Qwen3-VL-235B-A22B Instruct) into lightweight 4B/8B evaluators that provide multi-dimensional scoring over structural fidelity, text alignment, background consistency, naturalness, and temporal-spatial consistency (for videos). Experiments show that the distilled evaluators maintain strong agreement with human judgments and substantially reduce deployment cost relative to the teacher model. UniEditBench provides a practical and reproducible protocol for benchmarking modern visual editing methods. Our benchmark and the associated reward models are publicly available at https://github.com/wesar1/UniEditBench.
Abstract（参考訳）: 視覚的編集モデルの評価は、方法やモダリティによって断片化されている。既存のベンチマークは特定のパラダイムに合わせて調整されることが多く、公正なパラダイム間比較が困難になる一方、ビデオ編集には信頼性のある評価ベンチマークがない。さらに、一般的な自動メトリクスは人間の好みに反することが多いが、大規模なマルチモーダルモデル(MLLM)を直接デプロイすることで、計算と財政のコストが禁じられている。提案するUniEditBenchは、画像とビデオの編集を統一したベンチマークであり、共有プロトコルの下で再構成および命令駆動の手法をサポートする。 UniEditBenchには、9つのイメージ操作(Add、Remove、Replace、Change、Strokeベース、Extract、Adjust、Count、Reorder)と8つのビデオ操作の構造化分類が含まれており、カウントや空間的リオーダーといった難しい構成上のタスクがカバーされている。スケーラブルな評価を実現するため,高容量MLLM判定器(Qwen3-VL-235B-A22Bインストラクタ)を軽量4B/8B評価器に蒸留し,構造的忠実性,テキストアライメント,背景の一貫性,自然性,時間空間の整合性(ビデオの場合)を多次元評価する。実験の結果, 蒸留蒸留機は人的判断と強い一致を維持し, 教師モデルに対する展開コストを大幅に削減することがわかった。 UniEditBenchは、現代のビジュアル編集手法をベンチマークするための実用的で再現可能なプロトコルを提供する。私たちのベンチマークと関連する報酬モデルはhttps://github.com/wesar1/UniEditBench.comで公開されています。

関連論文リスト

VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects [33.5974992507736]
VEFX-Datasetは、9つの主要な編集カテゴリと32のサブカテゴリにまたがる5,049の動画編集例を含む、人間の注釈付きデータセットである。 VEFX-Rewardはビデオ編集品質評価に特化した報酬モデルである。 VEFX-Benchは、編集システムの標準化比較のための300のキュレートされたビデオプロンプトペアのベンチマークである。
論文参考訳（メタデータ） (2026-04-17T17:28:24Z)
GEditBench v2: A Human-Aligned Benchmark for General Image Editing [58.86807672117726]
GEditBench v2は、23のタスクにまたがる1200の現実世界のユーザクエリを備えた包括的なベンチマークである。また、視覚的整合性を評価するためのオープンソースのペアワイドアセスメントモデルであるPVC-Judgeを提案する。 PVC-Judgeは、オープンソースモデルの最先端評価性能を達成し、平均してGPT-5.1を超えている。
論文参考訳（メタデータ） (2026-03-30T15:08:32Z)
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model [10.609050605838805]
本稿では,IIEMの小型オブジェクト編集能力を評価するための最初のベンチマークであるDeepLookEditBenchを紹介する。 7つの命令タイプにわたる1889のサンプルからなる挑戦的なテストベッドを構築した。これらのサンプルでは、ターゲットオブジェクトは画像領域の1%-10%しか占めておらず、部分閉塞や複数オブジェクト編集といった複雑なシナリオをカバーしている。 10個のIIEMの実証的な結果から、小規模オブジェクト編集における大きなパフォーマンスギャップが明らかとなり、この機能を前進させるための特別なベンチマークの必要性が浮かび上がっている。
論文参考訳（メタデータ） (2026-02-27T02:59:34Z)
I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。 I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文参考訳（メタデータ） (2025-12-04T10:44:07Z)
UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文参考訳（メタデータ） (2025-11-03T07:24:57Z)
EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。 EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文参考訳（メタデータ） (2025-09-16T17:45:39Z)
RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions [56.9437856499838]
スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
論文参考訳（メタデータ） (2025-06-03T23:20:24Z)
CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文参考訳（メタデータ） (2025-05-18T02:30:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。