Fugu-MT 論文翻訳(概要): $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

論文の概要: $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

arxiv url: http://arxiv.org/abs/2504.13143v1
Date: Thu, 17 Apr 2025 17:51:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 17:06:41.350655
Title: $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark
Title（参考訳）: $\texttt{complex-Edit}$: CoT-like Instruction Generation for Complexity-Controllable Image Editing Benchmark
Authors: Siwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie,
Abstract要約: 我々は、命令ベースの画像編集モデルを評価するために設計された包括的なベンチマークである$ttexttComplex-Edit$を紹介した。我々は GPT-4o を利用して,様々な編集命令を大規模に収集する。本稿では,VLMに基づく自動評価パイプラインとともに,編集性能のさまざまな側面を評価するための指標について紹介する。
参考スコア（独自算出の注目度）: 36.58090024531738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce $\texttt{Complex-Edit}$, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured ``Chain-of-Edit'' pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models' ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a ``curse of synthetic data'': when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises -- a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.
Abstract（参考訳）: 我々は,様々な複雑さの命令に対して,命令ベースの画像編集モデルを体系的に評価するために設計された総合ベンチマークである$\texttt{complex-Edit}$を紹介した。このベンチマークを開発するために,GPT-4oを用いて様々な編集命令を自動的に収集する。私たちのアプローチは、よく構造化された ‘Chain-of-Edit''パイプラインに従い、まず個別に個々のアトミック編集タスクを生成し、それらを統合して結合的で複雑な命令を形成する。さらに、大規模な評価をサポートするVLMベースの自動評価パイプラインとともに、パフォーマンスの様々な側面を評価するためのメトリクススイートも導入する。私たちのベンチマークでは、いくつかの注目すべき洞察を得ています。 1) オープンソースモデルは、プロプライエタリなクローズドソースモデルと比較して著しく性能が劣り、命令の複雑さが増大するにつれて、性能格差が広がる。 2 指導の複雑さの増大は、主に入力画像から重要な要素を保持し、全体的な美的品質を維持する能力を損なう。 3) 複雑な命令を一連のアトミックステップに分解し、ステップバイステップで実行し、複数のメトリクスでパフォーマンスを著しく低下させる。 4)直接編集とステップ・バイ・ステップ・シーケンシャル・アプローチの両面において,直感的なBest-of-N選択戦略により結果が改善される。 5) 合成データがモデルトレーニングに関与している場合, 編集命令の複雑さが増大するにつれて, それらのモデルからの編集画像はますます合成的に現れる傾向にあり, 最新のGPT-4o出力にも興味深い現象が現れる。

関連論文リスト

SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [70.01883340129204]
シングルパス。リファレンスガイドによる評価(SPARE) 参照ソリューションにおける各ソリューションステップを1つまたは複数のステップにアライメントすることで、単一のパス毎のアノテーションを可能にする新しい構造化フレームワーク。 SPAREは2.6倍の効率を実現し、実行時の38%しか必要としない。
論文参考訳（メタデータ） (2025-06-18T14:37:59Z)
ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies [13.525744033075785]
実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存しているチェーンの命令を含むことが多い。現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。複雑・マルチインストラクション・チェーンに依存した画像編集タスクにおいて,モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
論文参考訳（メタデータ） (2025-06-15T12:22:55Z)
CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文参考訳（メタデータ） (2025-05-18T02:30:52Z)
A Deep Learning Framework for Sequence Mining with Bidirectional LSTM and Multi-Scale Attention [11.999319439383918]
本稿では、複雑なシーケンスデータにおける潜在パターンのマイニングとコンテキスト依存のモデル化の課題に対処する。 Bidirectional Long Short-Term Memory (BiLSTM) とマルチスケールアテンション機構を組み合わせたシーケンスパターンマイニングアルゴリズムを提案する。 BiLSTMはシーケンスの前方および後方の依存関係をキャプチャし、グローバルなコンテキスト構造を知覚するモデルの能力を高める。
論文参考訳（メタデータ） (2025-04-21T16:53:02Z)
Incorporating Attributes and Multi-Scale Structures for Heterogeneous Graph Contrastive Learning [8.889313669713918]
異種グラフのための新しいコントラスト学習フレームワーク(ASHGCL)を提案する。 ASHGCLには3つの異なるビューがあり、それぞれがノード属性、高階構造情報、低階構造情報に焦点を当てている。本稿では,属性情報と属性情報を組み合わせた属性強化型正のサンプル選択手法を提案する。
論文参考訳（メタデータ） (2025-03-18T05:15:21Z)
MuSC: Improving Complex Instruction Following with Multi-granularity Self-Contrastive Training [36.483136685734735]
より強力なモデルに頼ることなく、複雑な命令アライメントを改善するために、MuSC(Multi-granularity Self-Contrastive Training)フレームワークを提案する。提案手法は,オープンソースモデルを用いて評価し,提案手法が複雑かつ一般的な命令追従ベンチマークにおいて有意な改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2025-02-17T08:12:49Z)
Mosaic-IT: Cost-Free Compositional Data Synthesis for Instruction Tuning [30.82220015525281]
モザイクインストラクションチューニング(Mosaic Instruction Tuning、モザイクインストラクションチューニング)は、ヒト/モデルなし合成データ合成法である。評価の結果,モザイクITの性能と訓練効率が向上した。
論文参考訳（メタデータ） (2024-05-22T04:08:20Z)
FIPO: Free-form Instruction-oriented Prompt Optimization with Preference Dataset and Modular Fine-tuning Schema [36.65009632307124]
大規模言語モデル(LLM)のタスク性能向上のためのFIPO(Free-from Instruction-oriented Prompt Optimization)を提案する。 FIPOはモジュール型のAPOテンプレートを使用して、単純で最適化されたプロンプトを生成するために、ナイーブなタスク命令、オプションの命令応答、オプションの接地真理を動的に統合する。 5つの公開ベンチマークと6つのテストモデルでFIPOフレームワークを検証する。
論文参考訳（メタデータ） (2024-02-19T03:56:44Z)
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文参考訳（メタデータ） (2024-02-18T19:38:44Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [111.01953096869947]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上に視覚的指導チューニングが不可欠である我々は,高品質な視覚的推論命令を自動生成する体系的手法を開発した。実験結果から, MLLMの強化性能が一貫した結果を得た。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
Exploring Format Consistency for Instruction Tuning [79.0698403613366]
本研究では,Unified Instruction Tuning (UIT) というフレームワークを提案する。 UITはOpenAI APIを呼び出し、PromptSource、FLAN、CrossFitといったさまざまなインストラクションチューニングデータセット間で自動フォーマット転送を行う。提案手法では,T5-LM-xlにおける未知命令の一般化性能の向上と,自動フォーマット転送のノイズを低減するために,新しいパープレキシティに基づくデノナイジング手法を提案する。
論文参考訳（メタデータ） (2023-07-28T12:00:13Z)
ExeDec: Execution Decomposition for Compositional Generalization in Neural Program Synthesis [54.18659323181771]
プログラム合成において望ましいいくつかの異なる構成一般化形式を特徴付ける。本稿では,ExeDecを提案する。ExeDecは,実行サブゴールを予測し,各ステップでプログラム実行によって段階的に通知される問題を解くための,新しい分解ベースの戦略である。
論文参考訳（メタデータ） (2023-07-26T01:07:52Z)
Evaluating Modules in Graph Contrastive Learning [29.03038320344791]
グラフコントラスト学習モデルを4つのモジュールに分解するフレームワークを提案する。ノード分類タスクとグラフ分類タスクについて実験を行う。モジュール化されたツールキットOpenGCLとして実装と結果をリリースします。
論文参考訳（メタデータ） (2021-06-15T14:14:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。