論文の概要: Textual Training for the Hassle-Free Removal of Unwanted Visual Data
- arxiv url: http://arxiv.org/abs/2409.19840v1
- Date: Mon, 30 Sep 2024 00:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:04:02.539880
- Title: Textual Training for the Hassle-Free Removal of Unwanted Visual Data
- Title(参考訳): 不要な視覚データ除去のためのテキスト・トレーニング
- Authors: Saehyung Lee, Jisoo Mok, Sangha Park, Yongho Shin, Dahuin Jung, Sungroh Yoon,
- Abstract要約: ハッスルフリーテキストトレーニング(Hassle-Free Textual Training、HFTT)は、不要な視覚内容の検出器を取得できる合理化手法である。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
- 参考スコア(独自算出の注目度): 36.30986658618163
- License:
- Abstract: In our study, we explore methods for detecting unwanted content lurking in visual datasets. We provide a theoretical analysis demonstrating that a model capable of successfully partitioning visual data can be obtained using only textual data. Based on the analysis, we propose Hassle-Free Textual Training (HFTT), a streamlined method capable of acquiring detectors for unwanted visual content, using only synthetic textual data in conjunction with pre-trained vision-language models. HFTT features an innovative objective function that significantly reduces the necessity for human involvement in data annotation. Furthermore, HFTT employs a clever textual data synthesis method, effectively emulating the integration of unknown visual data distribution into the training process at no extra cost. The unique characteristics of HFTT extend its utility beyond traditional out-of-distribution detection, making it applicable to tasks that address more abstract concepts. We complement our analyses with experiments in out-of-distribution detection and hateful image detection. Our codes are available at https://github.com/Saehyung-Lee/HFTT
- Abstract(参考訳): 本研究では,視覚的データセットに潜む不要なコンテンツを検出する方法を検討する。
本稿では,テキストデータのみを用いて視覚データを分割可能なモデルが得られることを示す理論的解析を行う。
そこで本研究では,学習済みの視覚言語モデルと組み合わせた合成テキストデータのみを用いて,望ましくない視覚内容の検出器を取得できる合理化手法であるHassle-Free Textual Training (HFTT)を提案する。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
さらに、HFTTは、未知の視覚データ分布のトレーニングプロセスへの統合を、余分なコストで効果的にエミュレートする、巧妙なテキストデータ合成手法を採用している。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
我々は,分布外検出とヘイトフル画像検出の実験で分析を補完する。
私たちのコードはhttps://github.com/Saehyung-Lee/HFTTで利用可能です。
関連論文リスト
- HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Explainable Attention for Few-shot Learning and Beyond [8.32170125150307]
本稿では,説明可能な難易度発見,特に数発の学習シナリオに適した新しいフレームワークを提案する。
提案手法では、深層強化学習を用いて、生の入力データに直接影響するハードアテンションの概念を実装している。
論文 参考訳(メタデータ) (2023-10-11T18:33:17Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Visualization Techniques to Enhance Automated Event Extraction [0.0]
このケーススタディでは,NLPを用いたニュース記事から,国家主導による大量殺人の潜在的な引き金を探究する。
可視化は、生データの探索分析から機械学習トレーニング分析、最後に推論後の検証に至るまで、各段階でどのように役立つかを実証する。
論文 参考訳(メタデータ) (2021-06-11T19:24:54Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。