論文の概要: NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
- arxiv url: http://arxiv.org/abs/2507.14119v1
- Date: Fri, 18 Jul 2025 17:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.383744
- Title: NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining
- Title(参考訳): NoHumansが買収:トリプルトマイニングの自動化された高品質画像編集
- Authors: Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev,
- Abstract要約: ドメイン、解像度、命令の複雑さ、スタイルにまたがる高忠実度三重項をマイニングする、自動化されたモジュラーパイプラインを提案する。
インバージョンと合成ブートストラップは、マイニングセットを約2.2倍に拡大し、大規模な高忠実度トレーニングデータを可能にする。
この資源集約的な分野での研究を民主化するために、我々は358万の高品質なトリプルからなるオープンデータセットであるNHR-Editをリリースした。
- 参考スコア(独自算出の注目度): 36.136619420474766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative modeling enable image editing assistants that follow natural language instructions without additional user input. Their supervised training requires millions of triplets: original image, instruction, edited image. Yet mining pixel-accurate examples is hard. Each edit must affect only prompt-specified regions, preserve stylistic coherence, respect physical plausibility, and retain visual appeal. The lack of robust automated edit-quality metrics hinders reliable automation at scale. We present an automated, modular pipeline that mines high-fidelity triplets across domains, resolutions, instruction complexities, and styles. Built on public generative models and running without human intervention, our system uses a task-tuned Gemini validator to score instruction adherence and aesthetics directly, removing any need for segmentation or grounding models. Inversion and compositional bootstrapping enlarge the mined set by approximately 2.2x, enabling large-scale high-fidelity training data. By automating the most repetitive annotation steps, the approach allows a new scale of training without human labeling effort. To democratize research in this resource-intensive area, we release NHR-Edit: an open dataset of 358k high-quality triplets. In the largest cross-dataset evaluation, it surpasses all public alternatives. We also release Bagel-NHR-Edit, an open-source fine-tuned Bagel model, which achieves state-of-the-art metrics in our experiments.
- Abstract(参考訳): 生成モデリングの最近の進歩により、自然言語命令に従う画像編集アシスタントを、追加のユーザ入力なしで実現している。
彼らの監督されたトレーニングには、オリジナルのイメージ、命令、編集されたイメージという、何百万もの三つ子が必要です。
しかし、ピクセル精度の高いサンプルのマイニングは難しい。
各編集は、即時特定された領域のみに影響を与え、様式的コヒーレンスを維持し、物理的妥当性を尊重し、視覚的魅力を保たなければならない。
堅牢な自動編集品質メトリクスの欠如は、大規模な自動化を妨げます。
ドメイン、解像度、命令の複雑さ、スタイルにまたがる高忠実度三重項をマイニングする、自動化されたモジュラーパイプラインを提案する。
我々のシステムは、パブリックな生成モデルに基づいて構築され、人間の介入なしに動作し、タスクチューニングされたGeminiバリデータを使用して、指示の順守と美学を直接スコアし、セグメント化やグラウンド化モデルの必要性を排除します。
インバージョンと合成ブートストラップは、マイニングセットを約2.2倍に拡大し、大規模な高忠実度トレーニングデータを可能にする。
最も反復的なアノテーションのステップを自動化することで、このアプローチは人間のラベル付けをせずに新しいスケールのトレーニングを可能にする。
この資源集約的な分野での研究を民主化するために、我々は358万の高品質なトリプルからなるオープンデータセットであるNHR-Editをリリースした。
最大のクロスデータセット評価では、すべての公共の選択肢を上回っている。
Bagel-NHR-Editは、オープンソースの微調整されたBagelモデルで、我々の実験で最先端のメトリクスを達成します。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits [43.59555184340113]
マルチツールチェーンをエンド・ツー・エンドのモデルと統一された検証後のステージで置き換える軽量なデータパイプラインを導入する。
スケーラブルな品質管理のために、7Bのデュアルタスクエキスパートモデル textbfQwen-Verify をトレーニングし、効率的な故障検出と命令再カプセル化を行う。
このパイプラインは、さまざまな基本的な複雑な編集タスクにまたがる10Mスケールのデータセットである textbfUnicEdit-10M を生成する。
論文 参考訳(メタデータ) (2025-12-01T17:45:44Z) - Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。
それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。
現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。
ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:57Z) - GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments [1.6398143439811486]
堅牢な世界モデルのトレーニングには、大規模で正確にラベル付けされたマルチモーダルデータセットが必要である。
本稿では,GAZEパイプラインを用いて,生の長文ビデオのリッチなタスク対応監視への変換を自動化する。
論文 参考訳(メタデータ) (2025-10-07T21:13:03Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - Box Pose and Shape Estimation and Domain Adaptation for Large-Scale Warehouse Automation [23.91093031135749]
本稿では,手動のアノテーションを必要とせずに知覚モデルを改善するために,自己教師付きドメイン適応パイプラインを開発する。
我々は,5万枚の画像からなる大規模実世界のデータセットへの適応を含む,シミュレーションおよび実産業環境の範囲で,我々のアプローチを広範囲に評価した。
自己教師型モデルは,シミュレーションでのみ訓練されたモデルよりも有意に優れており,ゼロショット3次元境界ボックス推定ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-01T17:36:09Z) - Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space [9.327655601475605]
共有画像埋め込み空間における画像理解,生成,編集を統一する新しいアーキテクチャであるNexus-Genを提案する。
自己回帰埋め込み予測における過度なエラーの蓄積を軽減するため,新しい自己回帰戦略を提案する。
Nexus-Genは、画像理解、生成、編集タスクにまたがる評価ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-30T06:30:48Z) - Reconstructing Humans with a Biomechanically Accurate Skeleton [55.06027148976482]
本研究では,生体力学的に正確な骨格モデルを用いて,単一の画像から3次元人体を再構築する手法を提案する。
3次元メッシュ回復のための最先端の手法と比較して,我々のモデルは標準ベンチマーク上での競合性能を実現している。
論文 参考訳(メタデータ) (2025-03-27T17:56:24Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
インストラクションベースの画像編集には、高品質なトレーニング三脚(インストラクション、オリジナル画像、編集画像)が不可欠である。
これらのデータセットは、指示の不正確さ、詳細保存の貧弱さ、生成アーティファクトに悩まされている。
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-11-06T05:02:29Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文 参考訳(メタデータ) (2023-06-16T17:58:58Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。