論文の概要: NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
- arxiv url: http://arxiv.org/abs/2507.14119v1
- Date: Fri, 18 Jul 2025 17:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.383744
- Title: NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
- Title(参考訳): NoHumansが買収:トリプルトマイニングの自動化された高品質画像編集
- Authors: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev,
- Abstract要約: ドメイン、解像度、命令の複雑さ、スタイルにまたがる高忠実度三重項をマイニングする、自動化されたモジュラーパイプラインを提案する。
インバージョンと合成ブートストラップは、マイニングセットを約2.2倍に拡大し、大規模な高忠実度トレーニングデータを可能にする。
この資源集約的な分野での研究を民主化するために、我々は358万の高品質なトリプルからなるオープンデータセットであるNHR-Editをリリースした。
- 参考スコア(独自算出の注目度): 36.136619420474766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.
- Abstract(参考訳): 生成モデリングの最近の進歩により、自然言語命令に従う画像編集アシスタントを、追加のユーザ入力なしで実現している。
彼らの監督されたトレーニングには、オリジナルのイメージ、命令、編集されたイメージという、何百万もの三つ子が必要です。
しかし、ピクセル精度の高いサンプルのマイニングは難しい。
各編集は、即時特定された領域のみに影響を与え、様式的コヒーレンスを維持し、物理的妥当性を尊重し、視覚的魅力を保たなければならない。
堅牢な自動編集品質メトリクスの欠如は、大規模な自動化を妨げます。
ドメイン、解像度、命令の複雑さ、スタイルにまたがる高忠実度三重項をマイニングする、自動化されたモジュラーパイプラインを提案する。
我々のシステムは、パブリックな生成モデルに基づいて構築され、人間の介入なしに動作し、タスクチューニングされたGeminiバリデータを使用して、指示の順守と美学を直接スコアし、セグメント化やグラウンド化モデルの必要性を排除します。
インバージョンと合成ブートストラップは、マイニングセットを約2.2倍に拡大し、大規模な高忠実度トレーニングデータを可能にする。
最も反復的なアノテーションのステップを自動化することで、このアプローチは人間のラベル付けをせずに新しいスケールのトレーニングを可能にする。
この資源集約的な分野での研究を民主化するために、我々は358万の高品質なトリプルからなるオープンデータセットであるNHR-Editをリリースした。
最大のクロスデータセット評価では、すべての公共の選択肢を上回っている。
Bagel-NHR-Editは、オープンソースの微調整されたBagelモデルで、我々の実験で最先端のメトリクスを達成します。
関連論文リスト
- Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - Reconstructing Humans with a Biomechanically Accurate Skeleton [55.06027148976482]
本研究では,生体力学的に正確な骨格モデルを用いて,単一の画像から3次元人体を再構築する手法を提案する。
3次元メッシュ回復のための最先端の手法と比較して,我々のモデルは標準ベンチマーク上での競合性能を実現している。
論文 参考訳(メタデータ) (2025-03-27T17:56:24Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
インストラクションベースの画像編集には、高品質なトレーニング三脚(インストラクション、オリジナル画像、編集画像)が不可欠である。
これらのデータセットは、指示の不正確さ、詳細保存の貧弱さ、生成アーティファクトに悩まされている。
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-11-06T05:02:29Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文 参考訳(メタデータ) (2023-06-16T17:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。