Fugu-MT 論文翻訳(概要): Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks

論文の概要: Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks

arxiv url: http://arxiv.org/abs/2308.06739v1
Date: Sun, 13 Aug 2023 10:07:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-15 15:33:35.183220
Title: Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks
Title（参考訳）: 自由ATM:自由注意マスクを用いた拡散生成画像の教師なし学習
Authors: David Junhao Zhang, Mutian Xu, Chuhui Xue, Wenqing Zhang, Xiaoguang Han, Song Bai, Mike Zheng Shou
Abstract要約: テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
参考スコア（独自算出の注目度）: 64.67735676127208
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the rapid advancement of unsupervised learning in visual representation, it requires training on large-scale datasets that demand costly data collection, and pose additional challenges due to concerns regarding data privacy. Recently, synthetic images generated by text-to-image diffusion models, have shown great potential for benefiting image recognition. Although promising, there has been inadequate exploration dedicated to unsupervised learning on diffusion-generated images. To address this, we start by uncovering that diffusion models' cross-attention layers inherently provide annotation-free attention masks aligned with corresponding text inputs on generated images. We then investigate the problems of three prevalent unsupervised learning techniques ( i.e., contrastive learning, masked modeling, and vision-language pretraining) and introduce customized solutions by fully exploiting the aforementioned free attention masks. Our approach is validated through extensive experiments that show consistent improvements in baseline models across various downstream tasks, including image classification, detection, segmentation, and image-text retrieval. By utilizing our method, it is possible to close the performance gap between unsupervised pretraining on synthetic data and real-world scenarios.
Abstract（参考訳）: 視覚的表現における教師なし学習の急速な進歩にもかかわらず、コストのかかるデータ収集を要求する大規模データセットのトレーニングと、データプライバシに関する懸念のために追加の課題を提起する必要がある。近年,テキストから画像への拡散モデルによって生成された合成画像は,画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。そこで本研究では,拡散モデルのクロスアテンション層が,生成画像上の対応するテキスト入力に対応するアノテーションのないアテンションマスクを本質的に提供することを明らかにする。次に,3つの教師なし学習手法(コントラスト学習,マスクモデリング,視覚言語事前学習)の問題点を調査し,前述のフリーアテンションマスクを十分に活用したカスタマイズソリューションを導入する。提案手法は,画像分類,検出,セグメンテーション,画像テキスト検索など,下流タスクにおけるベースラインモデルの一貫した改善を示す広範な実験によって検証される。本手法を用いることで,教師なし事前学習と実世界のシナリオ間の性能ギャップを埋めることが可能となる。

関連論文リスト

Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [84.21257150497254]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文参考訳（メタデータ） (2025-05-06T15:09:23Z)
MIMRS: A Survey on Masked Image Modeling in Remote Sensing [12.28883063656968]
Masked Image Modeling (MIM)は、画像の一部をマスキングする自己教師付き学習技術である。 MIMは、クラウドカバー、オクルージョン、センサーの制限によって引き起こされる不完全なデータのような課題に対処する。このサーベイ(MIMRS)は、リモートセンシングにおけるマスク画像モデリングのランドスケープを図解する先駆的な試みである。
論文参考訳（メタデータ） (2025-04-04T05:16:51Z)
Knowledge-Guided Prompt Learning for Deepfake Facial Image Detection [54.26588902144298]
ディープフェイク顔画像検出のための知識誘導型プロンプト学習法を提案する。具体的には、学習可能なプロンプトの最適化を導くための専門家知識として、大規模言語モデルから偽造関連プロンプトを抽出する。提案手法は最先端の手法よりも優れている。
論文参考訳（メタデータ） (2025-01-01T02:18:18Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models [23.09033991200197]
新しいパーソナライズ技術は、特定のテーマやスタイルのイメージを作成するために、事前訓練されたベースモデルをカスタマイズするために提案されている。このような軽量なソリューションは、パーソナライズされたモデルが不正なデータからトレーニングされているかどうかに関して、新たな懸念を生じさせる。我々は、ブラックボックスパーソナライズされたテキスト・ツー・イメージ拡散モデルにおいて、不正なデータ使用を積極的に追跡する新しい手法であるSIRENを紹介する。
論文参考訳（メタデータ） (2024-10-14T12:29:23Z)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文参考訳（メタデータ） (2024-03-25T17:52:07Z)
Unveiling and Mitigating Memorization in Text-to-image Diffusion Models through Cross Attention [62.671435607043875]
研究は、テキストから画像への拡散モデルがトレーニングデータから画像を複製し、著作権侵害やプライバシーのリスクに対する大きな懸念を引き起こすことを示唆している。暗記中、クロスアテンションは特定のトークンの埋め込みに不均等に集中する傾向にあることが明らかとなった。拡散モデルにおける記憶の検出と緩和のための革新的なアプローチを導入する。
論文参考訳（メタデータ） (2024-03-17T01:27:00Z)
Masking Improves Contrastive Self-Supervised Learning for ConvNets, and Saliency Tells You Where [63.61248884015162]
我々は、畳み込みニューラルネットワークのためのコントラスト学習フレームワークにマスキング操作を組み込むことの負担を軽減することを目的としている。マスクされた領域が、前景と背景の間に均等に分散されていることを考慮し、塩分濃度の制約を明示的に考慮することを提案する。
論文参考訳（メタデータ） (2023-09-22T09:58:38Z)
The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文参考訳（メタデータ） (2022-04-18T09:22:55Z)
Intelligent Masking: Deep Q-Learning for Context Encoding in Medical Image Analysis [48.02011627390706]
我々は,対象地域を排除し,事前訓練の手順を改善する,新たな自己指導型アプローチを開発した。予測モデルに対してエージェントを訓練することで、下流の分類タスクで抽出した意味的特徴を大幅に改善できることを示す。
論文参考訳（メタデータ） (2022-03-25T19:05:06Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。