論文の概要: $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
- arxiv url: http://arxiv.org/abs/2504.13143v1
- Date: Thu, 17 Apr 2025 17:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:38:35.563550
- Title: $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
- Title(参考訳): $\texttt{complex-Edit}$: CoT-like Instruction Generation for Complexity-Controllable Image Editing Benchmark
- Authors: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie,
- Abstract要約: 我々は、命令ベースの画像編集モデルを評価するために設計された包括的なベンチマークである$ttexttComplex-Edit$を紹介した。
我々は GPT-4o を利用して,様々な編集命令を大規模に収集する。
本稿では,VLMに基づく自動評価パイプラインとともに,編集性能のさまざまな側面を評価するための指標について紹介する。
- 参考スコア(独自算出の注目度): 36.58090024531738
- License:
- Abstract: We introduce $\texttt{Complex-Edit}$, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models' ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a ``curse of synthetic data'': when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises -- a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.
- Abstract(参考訳): 我々は,様々な複雑さの命令に対して,命令ベースの画像編集モデルを体系的に評価するために設計された総合ベンチマークである$\texttt{complex-Edit}$を紹介した。
このベンチマークを開発するために,GPT-4oを用いて様々な編集命令を自動的に収集する。
私たちのアプローチは、よく構造化された ‘Chain-of-Edit''パイプラインに従い、まず個別に個々のアトミック編集タスクを生成し、それらを統合して結合的で複雑な命令を形成する。
さらに、大規模な評価をサポートするVLMベースの自動評価パイプラインとともに、パフォーマンスの様々な側面を評価するためのメトリクススイートも導入する。
私たちのベンチマークでは、いくつかの注目すべき洞察を得ています。
1) オープンソースモデルは、プロプライエタリなクローズドソースモデルと比較して著しく性能が劣り、命令の複雑さが増大するにつれて、性能格差が広がる。
2 指導の複雑さの増大は、主に入力画像から重要な要素を保持し、全体的な美的品質を維持する能力を損なう。
3) 複雑な命令を一連のアトミックステップに分解し、ステップバイステップで実行し、複数のメトリクスでパフォーマンスを著しく低下させる。
4)直接編集とステップ・バイ・ステップ・シーケンシャル・アプローチの両面において,直感的なBest-of-N選択戦略により結果が改善される。
5) 合成データがモデルトレーニングに関与している場合, 編集命令の複雑さが増大するにつれて, それらのモデルからの編集画像はますます合成的に現れる傾向にあり, 最新のGPT-4o出力にも興味深い現象が現れる。
関連論文リスト
- MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。
提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-02-17T08:12:49Z) - Enhancing and Assessing Instruction-Following with Fine-Grained Instruction Variants [28.691691883519542]
複雑な命令を単純なサブコンポーネントに分解し、それらを修正し、それらを新しい変種に再構成する手法を導入する。
DeMoReconに基づくFGIVデータセットは,1,773個のシード命令の微粒化を含む。
以上の結果から,FGIVを微調整したLDMは,命令追従ベンチマークと一般的な命令追従ベンチマークの両方において,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T08:08:11Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である
我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。
実験結果から, MLLMの強化性能が一貫した結果を得た。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。
UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。
提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文 参考訳(メタデータ) (2023-07-28T12:00:13Z) - ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。
本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文 参考訳(メタデータ) (2023-07-26T01:07:52Z) - Evaluating Modules in Graph Contrastive Learning [29.03038320344791]
グラフコントラスト学習モデルを4つのモジュールに分解するフレームワークを提案する。
ノード分類タスクとグラフ分類タスクについて実験を行う。
モジュール化されたツールキットOpenGCLとして実装と結果をリリースします。
論文 参考訳(メタデータ) (2021-06-15T14:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。