論文の概要: RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
- arxiv url: http://arxiv.org/abs/2506.03448v1
- Date: Tue, 03 Jun 2025 23:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.084436
- Title: RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
- Title(参考訳): RefEdit: 参照式に基づくインストラクションベース画像編集モデルの改善のためのベンチマークと方法
- Authors: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral,
- Abstract要約: スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。
私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
- 参考スコア(独自算出の注目度): 56.9437856499838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in inversion and instruction-based image editing, existing approaches primarily excel at editing single, prominent objects but significantly struggle when applied to complex scenes containing multiple entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous real-world benchmark rooted in RefCOCO, where even baselines trained on millions of samples perform poorly. To overcome this limitation, we introduce RefEdit -- an instruction-based editing model trained on our scalable synthetic data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets, outperforms the Flux/SD3 model-based baselines trained on millions of data. Extensive evaluations across various benchmarks demonstrate that our model not only excels in referring expression tasks but also enhances performance on traditional benchmarks, achieving state-of-the-art results comparable to closed-source methods. We release data \& checkpoint for reproducibility.
- Abstract(参考訳): 近年のインバージョンと命令ベースの画像編集の進歩にもかかわらず、既存のアプローチは主に1つの顕著なオブジェクトの編集に長けているが、複数のエンティティを含む複雑なシーンに適用した場合、かなり苦労する。
このギャップを定量化するために、まずRefEdit-Benchを紹介します。
この制限を克服するために、スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。
私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
各種ベンチマークの総合評価により,我々のモデルは表現タスクの参照に優れるだけでなく,従来のベンチマークの性能も向上し,クローズドソース手法に匹敵する最先端の結果が得られることが示された。
再現性のためのデータ \&checkpoint をリリースする。
関連論文リスト
- The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。