論文の概要: UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
- arxiv url: http://arxiv.org/abs/2512.02790v1
- Date: Mon, 01 Dec 2025 17:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.908246
- Title: UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
- Title(参考訳): UnicEdit-10M:Reasoning-Enriched Editの統一検証によるスケール品質バリアのデータセットとベンチマーク
- Authors: Keming Ye, Zhipeng Huang, Canmiao Fu, Qingyang Liu, Jiani Cai, Zheqi Lv, Chen Li, Jing Lyu, Zhou Zhao, Shengyu Zhang,
- Abstract要約: マルチツールチェーンをエンド・ツー・エンドのモデルと統一された検証後のステージで置き換える軽量なデータパイプラインを導入する。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデル textbfQwen-Verify をトレーニングし、効率的な故障検出と命令再カプセル化を行う。
このパイプラインは、さまざまな基本的な複雑な編集タスクにまたがる10Mスケールのデータセットである textbfUnicEdit-10M を生成する。
- 参考スコア(独自算出の注目度): 43.59555184340113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advances of powerful multimodal models such as GPT-4o, Nano Banana, and Seedream 4.0 in Image Editing, the performance gap between closed-source and open-source models is widening, primarily due to the scarcity of large-scale, high-quality training data and comprehensive benchmarks capable of diagnosing model weaknesses across diverse editing behaviors. Existing data construction methods face a scale-quality trade-off: human annotations are high-quality but not scalable, while automated pipelines suffer from error propagation and noise. To address this, we introduce a lightweight data pipeline that replaces multi-toolchains with an end-to-end model and a unified post-verification stage. For scalable quality control, we train a 7B dual-task expert model, \textbf{Qwen-Verify}, for efficient failure detection and instruction recaptioning. This pipeline yields \textbf{UnicEdit-10M}, a 10M-scale dataset spanning diverse basic and complex editing tasks. We also propose \textbf{UnicBench}, a general benchmark that extends beyond basic edits to explicitly assess spatial and knowledge-driven reasoning. To enable fine-grained diagnosis, we introduce novel metrics, including \textit{Non-edit Consistency} and \textit{Reasoning Accuracy}. Our analysis of mainstream models on UnicBench reveals their limitations and provides clear directions for future research.
- Abstract(参考訳): GPT-4o、Nano Banana、Seedream 4.0といった強力なマルチモーダルモデルの画像編集における急速な進歩により、クローズドソースモデルとオープンソースモデルのパフォーマンスギャップは拡大し、主に大規模で高品質なトレーニングデータや、様々な編集行動にまたがるモデルの弱点を診断できる包括的なベンチマークが不足している。
人間のアノテーションは高品質だがスケーラブルではない。一方、自動パイプラインはエラーの伝搬とノイズに悩まされている。
これを解決するために、マルチツールチェーンをエンドツーエンドモデルと統一された検証後のステージで置き換える軽量データパイプラインを導入します。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデルである \textbf{Qwen-Verify} をトレーニングし、効率的な障害検出と命令再カプセル化を行う。
このパイプラインは、多様な基本および複雑な編集タスクにまたがる10Mスケールのデータセットである \textbf{UnicEdit-10M} を生成する。
また、空間的および知識駆動推論を明示的に評価するために、基本的な編集を超えて拡張する一般的なベンチマークである「textbf{UnicBench}」も提案する。
より詳細な診断を可能にするために,<textit{Non-edit Consistency} や \textit{Reasoning Accuracy} などの新しい指標を導入する。
UnicBenchの主流モデルの解析は,その限界を明らかにし,今後の研究への明確な方向性を提供する。
関連論文リスト
- FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models [17.64873155970997]
本稿では,FarSkip-Collectiveを提案する。
我々は16Bから109Bパラメータに変化する一連の最先端モデルを完全に変換し、通信の重複を可能にする。
大規模な修正モデルの保持精度の証明に加えて,最適化実装によるFarSkip-Collectiveの利点も実現した。
論文 参考訳(メタデータ) (2025-11-14T17:25:14Z) - ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset [43.45582911794623]
我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-12T13:01:23Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Whoever Started the Interference Should End It: Guiding Data-Free Model Merging via Task Vectors [27.848233831749216]
textbfWUDI-Merging(textbfWhoever started the interference shotextbfUld entextbfD textbfIt)は、追加データや再スケーリング係数なしで干渉を排除するモデルマージ手法である。
視覚と言語ベンチマークの総合的な経験的評価は、我々の方法の優位性を示している。
論文 参考訳(メタデータ) (2025-03-11T07:01:35Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - G-SPEED: General SParse Efficient Editing MoDel [25.48360227520061]
underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
論文 参考訳(メタデータ) (2023-10-16T15:01:18Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。