論文の概要: Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach
- arxiv url: http://arxiv.org/abs/2411.01545v1
- Date: Sun, 03 Nov 2024 12:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:52.071512
- Title: Towards Small Object Editing: A Benchmark Dataset and A Training-Free Approach
- Title(参考訳): 小さなオブジェクト編集に向けて:ベンチマークデータセットとトレーニング不要なアプローチ
- Authors: Qihe Pan, Zhen Zhao, Zicheng Wang, Sifan Long, Yiming Wu, Wei Ji, Haoran Liang, Ronghua Liang,
- Abstract要約: テキストとこれらのオブジェクト間の相互注意マップの整列が困難であるため、小さなオブジェクト生成は制限されている。
我々の手法は、このアライメント問題を局所的およびグローバルな注意誘導とともに大幅に軽減する、トレーニング不要な手法を提供する。
予備的な結果から,本手法の有効性が示され,既存モデルと比較して,小型オブジェクト生成の忠実度と精度が著しく向上した。
- 参考スコア(独自算出の注目度): 13.262064234892282
- License:
- Abstract: A plethora of text-guided image editing methods has recently been developed by leveraging the impressive capabilities of large-scale diffusion-based generative models especially Stable Diffusion. Despite the success of diffusion models in producing high-quality images, their application to small object generation has been limited due to difficulties in aligning cross-modal attention maps between text and these objects. Our approach offers a training-free method that significantly mitigates this alignment issue with local and global attention guidance , enhancing the model's ability to accurately render small objects in accordance with textual descriptions. We detail the methodology in our approach, emphasizing its divergence from traditional generation techniques and highlighting its advantages. What's more important is that we also provide~\textit{SOEBench} (Small Object Editing), a standardized benchmark for quantitatively evaluating text-based small object generation collected from \textit{MSCOCO} and \textit{OpenImage}. Preliminary results demonstrate the effectiveness of our method, showing marked improvements in the fidelity and accuracy of small object generation compared to existing models. This advancement not only contributes to the field of AI and computer vision but also opens up new possibilities for applications in various industries where precise image generation is critical. We will release our dataset on our project page: \href{https://soebench.github.io/}{https://soebench.github.io/}.
- Abstract(参考訳): 近年,大規模拡散モデル,特に安定拡散モデルを利用したテキスト誘導画像編集法が開発されている。
高品質な画像の生成における拡散モデルの成功にもかかわらず、テキストとこれらのオブジェクト間の相互参照マップの整列が困難であるため、小さなオブジェクト生成への適用は制限されてきた。
提案手法は,このアライメント問題を局所的およびグローバル的注意誘導で著しく軽減し,テキスト記述に従って小さなオブジェクトを正確にレンダリングする能力を向上させる。
提案手法の方法論を詳述し、従来の世代技術との相違を強調し、その利点を強調した。
これは、 \textit{MSCOCO} と \textit{OpenImage} から収集されたテキストベースの小さなオブジェクト生成を定量的に評価するための標準化されたベンチマークである。
予備的な結果から,本手法の有効性が示され,既存モデルと比較して,小型オブジェクト生成の忠実度と精度が著しく向上した。
この進歩は、AIとコンピュータビジョンの分野に貢献するだけでなく、正確な画像生成が重要となる様々な産業のアプリケーションにも新たな可能性をもたらす。
私たちは、プロジェクトページでデータセットをリリースします。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - SOEDiff: Efficient Distillation for Small Object Editing [9.876242696640205]
スモールオブジェクト編集(SOE)と呼ばれる新しいタスクは、制約のある小さな領域におけるテキストベースの画像の描画に焦点を当てている。
小型オブジェクトの編集におけるStableDiffusionのようなベースラインモデルの性能向上を目的とした,新たなトレーニングベースアプローチであるSOEDiffを導入する。
提案手法は,MSCOCOとOpenImageから収集したテストデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-05-15T06:14:31Z) - ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。
提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-04-11T08:50:12Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。