論文の概要: RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
- arxiv url: http://arxiv.org/abs/2506.03448v1
- Date: Tue, 03 Jun 2025 23:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.084436
- Title: RefEdit: A Benchmark and Method for Improving Instruction-based Image Editing Model on Referring Expressions
- Title(参考訳): RefEdit: 参照式に基づくインストラクションベース画像編集モデルの改善のためのベンチマークと方法
- Authors: Bimsara Pathiraja, Maitreya Patel, Shivam Singh, Yezhou Yang, Chitta Baral,
- Abstract要約: スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。
私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
- 参考スコア(独自算出の注目度): 56.9437856499838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advances in inversion and instruction-based image editing, existing approaches primarily excel at editing single, prominent objects but significantly struggle when applied to complex scenes containing multiple entities. To quantify this gap, we first introduce RefEdit-Bench, a rigorous real-world benchmark rooted in RefCOCO, where even baselines trained on millions of samples perform poorly. To overcome this limitation, we introduce RefEdit -- an instruction-based editing model trained on our scalable synthetic data generation pipeline. Our RefEdit, trained on only 20,000 editing triplets, outperforms the Flux/SD3 model-based baselines trained on millions of data. Extensive evaluations across various benchmarks demonstrate that our model not only excels in referring expression tasks but also enhances performance on traditional benchmarks, achieving state-of-the-art results comparable to closed-source methods. We release data \& checkpoint for reproducibility.
- Abstract(参考訳): 近年のインバージョンと命令ベースの画像編集の進歩にもかかわらず、既存のアプローチは主に1つの顕著なオブジェクトの編集に長けているが、複数のエンティティを含む複雑なシーンに適用した場合、かなり苦労する。
このギャップを定量化するために、まずRefEdit-Benchを紹介します。
この制限を克服するために、スケーラブルな合成データ生成パイプラインでトレーニングされた命令ベースの編集モデルであるRefEditを紹介します。
私たちのRefEditは、わずか2万の編集三脚でトレーニングされており、何百万ものデータでトレーニングされたFlux/SD3モデルベースラインを上回っています。
各種ベンチマークの総合評価により,我々のモデルは表現タスクの参照に優れるだけでなく,従来のベンチマークの性能も向上し,クローズドソース手法に匹敵する最先端の結果が得られることが示された。
再現性のためのデータ \&checkpoint をリリースする。
関連論文リスト
- DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models [26.762431651154607]
テキストと視覚の両方を各キー層で修正するエディタであるDualEditを提案する。
我々は、複数のVLMバックボーンとベンチマークデータセットにわたるDualEditを評価し、最先端のVLM編集ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-16T16:04:16Z) - FineEdit: Unlock Instruction-Based Text Editing for LLMs [9.795246551841586]
FineEditは、コンテキスト対応のテキスト修正のために明示的に訓練された特殊な編集モデルである。
FineEditはシングルターン編集で最先端のモデルより優れており、Llama-3.2-3Bより30%も上回り、Mistral-7B-OpenOrcaのパフォーマンスを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-19T01:41:44Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - Consecutive Batch Model Editing with HooK Layers [59.673084839708224]
CoachHooKは、シーケンシャルおよびバッチ編集を同時にサポートするモデル編集方法である。
メモリフレンドリで、時間とともにサイズが変化しないいくつかのフック層を格納するために、少量しか必要としない。
論文 参考訳(メタデータ) (2024-03-08T14:07:44Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。