論文の概要: SOEDiff: Efficient Distillation for Small Object Editing
- arxiv url: http://arxiv.org/abs/2405.09114v1
- Date: Wed, 15 May 2024 06:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:16:04.844990
- Title: SOEDiff: Efficient Distillation for Small Object Editing
- Title(参考訳): SOEDiff:小さなオブジェクト編集に効率的な蒸留法
- Authors: Qihe Pan, Zicheng Wang, Zhen Zhao, Yiming Wu, Sifan Long, Haoran Liang, Ronghua Liang,
- Abstract要約: スモールオブジェクト編集(SOE)と呼ばれる新しいタスクは、制約のある小さな領域におけるテキストベースの画像の描画に焦点を当てている。
小型オブジェクトの編集におけるStableDiffusionのようなベースラインモデルの性能向上を目的とした,新たなトレーニングベースアプローチであるSOEDiffを導入する。
提案手法は,MSCOCOとOpenImageから収集したテストデータセットに大きな改善をもたらす。
- 参考スコア(独自算出の注目度): 9.970035700690744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we delve into a new task known as small object editing (SOE), which focuses on text-based image inpainting within a constrained, small-sized area. Despite the remarkable success have been achieved by current image inpainting approaches, their application to the SOE task generally results in failure cases such as Object Missing, Text-Image Mismatch, and Distortion. These failures stem from the limited use of small-sized objects in training datasets and the downsampling operations employed by U-Net models, which hinders accurate generation. To overcome these challenges, we introduce a novel training-based approach, SOEDiff, aimed at enhancing the capability of baseline models like StableDiffusion in editing small-sized objects while minimizing training costs. Specifically, our method involves two key components: SO-LoRA, which efficiently fine-tunes low-rank matrices, and Cross-Scale Score Distillation loss, which leverages high-resolution predictions from the pre-trained teacher diffusion model. Our method presents significant improvements on the test dataset collected from MSCOCO and OpenImage, validating the effectiveness of our proposed method in small object editing. In particular, when comparing SOEDiff with SD-I model on the OpenImage-f dataset, we observe a 0.99 improvement in CLIP-Score and a reduction of 2.87 in FID. Our project page can be found in https://soediff.github.io/.
- Abstract(参考訳): 本稿では,制約のある小領域におけるテキストベースの画像の描画に焦点を当てた,SOE(Small ObjectEditor)と呼ばれる新しいタスクを探索する。
現在のイメージインパインティングアプローチによって顕著な成功を収めたにもかかわらず、SOEタスクへのそれらの適用は一般的に、オブジェクトミス、テキストミスマッチ、歪みなどの障害ケースをもたらす。
これらの失敗は、トレーニングデータセットにおける小さなオブジェクトの使用の制限と、正確な生成を妨げるU-Netモデルで使用されるダウンサンプリング操作に起因している。
これらの課題を克服するために,我々は,StableDiffusionのようなベースラインモデルによる小型オブジェクトの編集能力の向上と,トレーニングコストの最小化を目的とした,新たなトレーニングベースアプローチであるSOEDiffを導入する。
具体的には、低ランク行列を効率よく微調整するSO-LoRAと、事前学習した教師拡散モデルから高分解能予測を利用するクロススケールスコア蒸留損失の2つの重要な要素を含む。
提案手法は,MSCOCOとOpenImageから収集したテストデータセットに有意な改善を加え,小オブジェクト編集における提案手法の有効性を検証した。
特に、OpenImage-fデータセット上のSOEDiffとSD-Iモデルを比較すると、CLIPスコアの0.99の改善とFIDの2.87の削減が観察される。
私たちのプロジェクトページはhttps://soediff.github.io/.com/にある。
関連論文リスト
- Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach [13.262064234892282]
テキストとこれらのオブジェクト間の相互注意マップの整列が困難であるため、小さなオブジェクト生成は制限されている。
我々の手法は、このアライメント問題を局所的およびグローバルな注意誘導とともに大幅に軽減する、トレーニング不要な手法を提供する。
予備的な結果から,本手法の有効性が示され,既存モデルと比較して,小型オブジェクト生成の忠実度と精度が著しく向上した。
論文 参考訳(メタデータ) (2024-11-03T12:38:23Z) - Looking for Tiny Defects via Forward-Backward Feature Transfer [12.442574943138794]
そこで本研究では,従来の高解像度画像と地中トラスマスクの手法を評価する新しいベンチマークを提案する。
私たちのベンチマークには、欠陥サイズに関する堅牢性をキャプチャするメトリクスが含まれています。
提案手法は,欠陥サイズに対する高いロバスト性,高速動作,最先端セグメンテーション性能を特徴とする。
論文 参考訳(メタデータ) (2024-07-04T17:59:26Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Object Detection in Aerial Images in Scarce Data Regimes [0.0]
小さな物体は、より多数の空中画像において、自然画像と空中画像の間の明らかなパフォーマンスギャップの原因となっている。
FSOD法の訓練と評価を改善するスケール適応型ボックス類似度基準を提案する。
また、計量学習と微調整に基づく2つの異なるアプローチによる汎用FSODにも貢献する。
論文 参考訳(メタデータ) (2023-10-16T14:16:47Z) - Dense Depth Distillation with Out-of-Distribution Simulated Images [30.79756881887895]
単分子深度推定(MDE)のためのデータフリー知識蒸留(KD)について検討する。
KDは、訓練された教師モデルからそれを圧縮し、対象領域でのトレーニングデータを欠くことにより、現実世界の深度知覚タスクの軽量モデルを学ぶ。
提案手法は, トレーニング画像の1/6に留まらず, ベースラインKDのマージンが良好であり, 性能も若干向上していることを示す。
論文 参考訳(メタデータ) (2022-08-26T07:10:01Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - To be Critical: Self-Calibrated Weakly Supervised Learning for Salient
Object Detection [95.21700830273221]
弱教師付き有色物体検出(WSOD)は,画像レベルのアノテーションを用いた有色度モデルの開発を目的としている。
擬似ラベルとネットワーク予測の相互校正ループを明確に設定し,自己校正学習戦略を提案する。
十分に整合したアノテーションを持つはるかに小さなデータセットであっても、モデルがより優れたパフォーマンスと一般化性を達成するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-04T02:45:22Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Few-shot Weakly-Supervised Object Detection via Directional Statistics [55.97230224399744]
少数ショットコモンオブジェクトローカライゼーション(COL)と少数ショット弱監視オブジェクト検出(WSOD)のための確率論的多重インスタンス学習手法を提案する。
本モデルでは,新しいオブジェクトの分布を同時に学習し,期待-最大化ステップにより局所化する。
提案手法は, 単純であるにもかかわらず, 少数のCOLとWSOD, 大規模WSODタスクにおいて, 高いベースラインを達成できることを示す。
論文 参考訳(メタデータ) (2021-03-25T22:34:16Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。