論文の概要: Data Augmentation via Latent Diffusion for Saliency Prediction
- arxiv url: http://arxiv.org/abs/2409.07307v1
- Date: Wed, 11 Sep 2024 14:36:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 14:13:20.318027
- Title: Data Augmentation via Latent Diffusion for Saliency Prediction
- Title(参考訳): 残差予測のための潜時拡散によるデータ増大
- Authors: Bahar Aydemir, Deblina Bhattacharjee, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk,
- Abstract要約: 残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 67.88936624546076
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Saliency prediction models are constrained by the limited diversity and quantity of labeled data. Standard data augmentation techniques such as rotating and cropping alter scene composition, affecting saliency. We propose a novel data augmentation method for deep saliency prediction that edits natural images while preserving the complexity and variability of real-world scenes. Since saliency depends on high-level and low-level features, our approach involves learning both by incorporating photometric and semantic attributes such as color, contrast, brightness, and class. To that end, we introduce a saliency-guided cross-attention mechanism that enables targeted edits on the photometric properties, thereby enhancing saliency within specific image regions. Experimental results show that our data augmentation method consistently improves the performance of various saliency models. Moreover, leveraging the augmentation features for saliency prediction yields superior performance on publicly available saliency benchmarks. Our predictions align closely with human visual attention patterns in the edited images, as validated by a user study.
- Abstract(参考訳): 残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
回転や刈り取りといった標準的なデータ増大技術は、塩分濃度に影響を及ぼす。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行う深層感予測のための新しいデータ拡張手法を提案する。
高レベルの特徴と低レベルの特徴に依存しているため、我々のアプローチは、色、コントラスト、明るさ、クラスといった、測光的属性と意味的属性の両方を取り入れることで学習する。
そこで本稿では,測光特性を目標とした編集が可能で,特定の画像領域における塩分濃度を向上する,塩分濃度誘導型クロスアテンション機構を提案する。
実験結果から,データ拡張手法は様々なサリエンシモデルの性能を継続的に向上することが示された。
さらに、拡張機能を唾液度予測に利用することで、公衆利用可能な唾液度ベンチマークよりも優れたパフォーマンスが得られる。
我々の予測は、編集された画像の人間の視覚的注意パターンと密接に一致している。
関連論文リスト
- Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Generalization Gap in Data Augmentation: Insights from Illumination [3.470401787749558]
実世界の照明条件下で訓練されたモデルと、拡張現実で訓練されたモデルとの一般化の相違について検討する。
その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。
しかし、様々なデータ拡張手法を利用した後も、顕著な一般化のギャップが残っている。
論文 参考訳(メタデータ) (2024-04-11T07:11:43Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。