論文の概要: Data Augmentation via Latent Diffusion for Saliency Prediction
- arxiv url: http://arxiv.org/abs/2409.07307v1
- Date: Wed, 11 Sep 2024 14:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-12 14:13:20.318027
- Title: Data Augmentation via Latent Diffusion for Saliency Prediction
- Title(参考訳): 残差予測のための潜時拡散によるデータ増大
- Authors: Bahar Aydemir, Deblina Bhattacharjee, Tong Zhang, Mathieu Salzmann, Sabine Süsstrunk,
- Abstract要約: 残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 67.88936624546076
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Saliency prediction models are constrained by the limited diversity and quantity of labeled data. Standard data augmentation techniques such as rotating and cropping alter scene composition, affecting saliency. We propose a novel data augmentation method for deep saliency prediction that edits natural images while preserving the complexity and variability of real-world scenes. Since saliency depends on high-level and low-level features, our approach involves learning both by incorporating photometric and semantic attributes such as color, contrast, brightness, and class. To that end, we introduce a saliency-guided cross-attention mechanism that enables targeted edits on the photometric properties, thereby enhancing saliency within specific image regions. Experimental results show that our data augmentation method consistently improves the performance of various saliency models. Moreover, leveraging the augmentation features for saliency prediction yields superior performance on publicly available saliency benchmarks. Our predictions align closely with human visual attention patterns in the edited images, as validated by a user study.
- Abstract(参考訳): 残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
回転や刈り取りといった標準的なデータ増大技術は、塩分濃度に影響を及ぼす。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行う深層感予測のための新しいデータ拡張手法を提案する。
高レベルの特徴と低レベルの特徴に依存しているため、我々のアプローチは、色、コントラスト、明るさ、クラスといった、測光的属性と意味的属性の両方を取り入れることで学習する。
そこで本稿では,測光特性を目標とした編集が可能で,特定の画像領域における塩分濃度を向上する,塩分濃度誘導型クロスアテンション機構を提案する。
実験結果から,データ拡張手法は様々なサリエンシモデルの性能を継続的に向上することが示された。
さらに、拡張機能を唾液度予測に利用することで、公衆利用可能な唾液度ベンチマークよりも優れたパフォーマンスが得られる。
我々の予測は、編集された画像の人間の視覚的注意パターンと密接に一致している。
関連論文リスト
- Unifying Image Counterfactuals and Feature Attributions with Latent-Space Adversarial Attacks [3.8642937395065124]
本稿では,反ファクト画像のための新しい実装フレームワークを提案する。
我々の手法は、低次元多様体に沿った画像の表現に対する逆攻撃に似ている。
提案手法は, 特徴属性を伴って, 原画像と反事実画像の変化を定量化する手法である。
論文 参考訳(メタデータ) (2025-04-21T23:09:30Z) - A Meaningful Perturbation Metric for Evaluating Explainability Methods [55.09730499143998]
本稿では,画像生成モデルを用いて標的摂動を行う新しい手法を提案する。
具体的には,画像の忠実さを保ちながら,入力画像の高関連画素のみを塗布し,モデルの予測を変更することに焦点を当てる。
これは、しばしばアウト・オブ・ディストリビューションの修正を生み出し、信頼できない結果をもたらす既存のアプローチとは対照的である。
論文 参考訳(メタデータ) (2025-04-09T11:46:41Z) - Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Generalization Gap in Data Augmentation: Insights from Illumination [3.470401787749558]
実世界の照明条件下で訓練されたモデルと、拡張現実で訓練されたモデルとの一般化の相違について検討する。
その結果,様々なデータ拡張手法を適用した結果,モデルの性能は大幅に向上した。
しかし、様々なデータ拡張手法を利用した後も、顕著な一般化のギャップが残っている。
論文 参考訳(メタデータ) (2024-04-11T07:11:43Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Training-free Diffusion Model Adaptation for Variable-Sized
Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-14T17:23:07Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。