論文の概要: Data Augmentation via Latent Diffusion Models for Detecting Smell-Related Objects in Historical Artworks
- arxiv url: http://arxiv.org/abs/2509.14755v1
- Date: Thu, 18 Sep 2025 09:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.137682
- Title: Data Augmentation via Latent Diffusion Models for Detecting Smell-Related Objects in Historical Artworks
- Title(参考訳): 歴史工芸品におけるスメル関連物検出のための潜時拡散モデルによるデータ拡張
- Authors: Ahmed Sheta, Mathias Zinnen, Aline Sindel, Andreas Maier, Vincent Christlein,
- Abstract要約: 我々は, 合成データ生成の可能性を探究し, 美術品のニオイ参照を見つける際の問題を緩和する。
モデルトレーニングに合成データを組み込むことで検出性能が向上することを示す。
本研究は,拡散モデルの大規模事前学習を活用することにより,検出精度の向上に寄与することが示唆された。
- 参考スコア(独自算出の注目度): 7.166551804444765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finding smell references in historic artworks is a challenging problem. Beyond artwork-specific challenges such as stylistic variations, their recognition demands exceptionally detailed annotation classes, resulting in annotation sparsity and extreme class imbalance. In this work, we explore the potential of synthetic data generation to alleviate these issues and enable accurate detection of smell-related objects. We evaluate several diffusion-based augmentation strategies and demonstrate that incorporating synthetic data into model training can improve detection performance. Our findings suggest that leveraging the large-scale pretraining of diffusion models offers a promising approach for improving detection accuracy, particularly in niche applications where annotations are scarce and costly to obtain. Furthermore, the proposed approach proves to be effective even with relatively small amounts of data, and scaling it up provides high potential for further enhancements.
- Abstract(参考訳): 歴史画の匂いの参照を見つけることは難しい問題です。
スタイリスティックなバリエーションのようなアートに特有な課題以外にも、その認識には極めて詳細なアノテーションクラスが要求され、アノテーションのスパーシリティと極端なクラス不均衡が生じる。
本研究では,これらの問題を緩和し,匂い関連物体の正確な検出を可能にするために,合成データ生成の可能性を検討する。
拡散に基づく拡張戦略を評価し, モデルトレーニングに合成データを組み込むことで, 検出性能が向上することを示した。
以上の結果から,大規模な拡散モデルの事前学習を活用することで,特にアノテーションが乏しく,コストがかかるニッチなアプリケーションにおいて,検出精度を向上させる上で有望なアプローチが期待できる可能性が示唆された。
さらに,提案手法は比較的少量のデータでも有効であることが証明され,スケールアップによってさらなる拡張が期待できる。
関連論文リスト
- Data augmentation using diffusion models to enhance inverse Ising inference [2.654300333196867]
拡散モデルは、小さなデータセットを増大させることでパラメータ推論を向上させることができることを示す。
本研究は,物理問題におけるデータ拡張に拡散モデルを用いるための概念実証として機能する。
論文 参考訳(メタデータ) (2025-03-13T08:29:17Z) - Learning from Neighbors: Category Extrapolation for Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - A Note on Generalization in Variational Autoencoders: How Effective Is Synthetic Data & Overparameterization? [11.15942317329723]
変分オートエンコーダ(VAEs)は、科学的応用に使用される深い確率モデルである。
我々のモチベーションは、現在訓練されている生成モデルを改善するか、あるいは傷つけるかという最近の議論に端を発する。
本研究は, 事前学習した拡散モデルからのサンプルのトレーニングと, 特定の層でより多くのパラメータを併用することにより, VAEの過剰適合を効果的に軽減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T15:38:39Z) - Enhancing Visual Perception in Novel Environments via Incremental Data
Augmentation Based on Style Transfer [2.516855334706386]
未知の未知"は、現実のシナリオにおける自律的なエージェントデプロイメントに挑戦する。
提案手法は,変分プロトタイピング(VPE)を利用して,新規入力を積極的に識別し,処理することで視覚知覚を向上させる。
本研究は,ドメイン固有の拡張戦略に生成モデルを組み込むことの潜在的な利点を示唆する。
論文 参考訳(メタデータ) (2023-09-16T03:06:31Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。