論文の概要: Textual Training for the Hassle-Free Removal of Unwanted Visual Data
- arxiv url: http://arxiv.org/abs/2409.19840v1
- Date: Thu, 24 Oct 2024 03:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 17:19:55.608684
- Title: Textual Training for the Hassle-Free Removal of Unwanted Visual Data
- Title(参考訳): 不要な視覚データ除去のためのテキスト・トレーニング
- Authors: Saehyung Lee, Jisoo Mok, Sangha Park, Yongho Shin, Dahuin Jung, Sungroh Yoon,
- Abstract要約: ハッスルフリーテキストトレーニング(Hassle-Free Textual Training、HFTT)は、不要な視覚内容の検出器を取得できる合理化手法である。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
- 参考スコア(独自算出の注目度): 36.30986658618163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In our study, we explore methods for detecting unwanted content lurking in visual datasets. We provide a theoretical analysis demonstrating that a model capable of successfully partitioning visual data can be obtained using only textual data. Based on the analysis, we propose Hassle-Free Textual Training (HFTT), a streamlined method capable of acquiring detectors for unwanted visual content, using only synthetic textual data in conjunction with pre-trained vision-language models. HFTT features an innovative objective function that significantly reduces the necessity for human involvement in data annotation. Furthermore, HFTT employs a clever textual data synthesis method, effectively emulating the integration of unknown visual data distribution into the training process at no extra cost. The unique characteristics of HFTT extend its utility beyond traditional out-of-distribution detection, making it applicable to tasks that address more abstract concepts. We complement our analyses with experiments in out-of-distribution detection and hateful image detection. Our codes are available at https://github.com/Saehyung-Lee/HFTT
- Abstract(参考訳): 本研究では,視覚的データセットに潜む不要なコンテンツを検出する方法を検討する。
本稿では,テキストデータのみを用いて視覚データを分割可能なモデルが得られることを示す理論的解析を行う。
そこで本研究では,学習済みの視覚言語モデルと組み合わせた合成テキストデータのみを用いて,望ましくない視覚内容の検出器を取得できる合理化手法であるHassle-Free Textual Training (HFTT)を提案する。
HFTTは、人間のデータアノテーションへの関与を著しく減少させる革新的な客観的機能を備えている。
さらに、HFTTは、未知の視覚データ分布のトレーニングプロセスへの統合を、余分なコストで効果的にエミュレートする、巧妙なテキストデータ合成手法を採用している。
HFTTの独特な特徴は、その機能を従来のアウト・オブ・ディストリビューション検出を超えて拡張し、より抽象的な概念に対処するタスクに適用できるようにする。
我々は,分布外検出とヘイトフル画像検出の実験で分析を補完する。
私たちのコードはhttps://github.com/Saehyung-Lee/HFTTで利用可能です。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - ViLReF: An Expert Knowledge Enabled Vision-Language Retinal Foundation Model [19.915033191502328]
この研究は、451,956枚の網膜画像とそれに対応する診断用テキストレポートからなるペアデータセットを事前トレーニングすることで、ViLReFと呼ばれる網膜基盤モデルを開発することを目的としている。
ビジョン言語による事前学習戦略では、専門家の知識を活用してラベルの抽出を容易にする。
我々は,モーメントエンコーダが保持する動的メモリキューを備えたバッチ拡張モジュールを用いて,偽陰性の排除による余分なサンプルの供給と空洞の補充を行う。
論文 参考訳(メタデータ) (2024-08-20T14:27:03Z) - HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts [49.21764163995419]
本稿では,HyPerbolic Entailment Filtering (HYPE)を導入し,ノイズの多い画像とテキストのペアのデータセットから有意で整合したデータを抽出する。
HYPEは、フィルタリング効率を大幅に改善するだけでなく、DataCompベンチマークで新しい最先端を設定できる。
このブレークスルーは、HYPEがデータ選択プロセスを洗練させる可能性を示し、より正確で効率的な自己教師型学習モデルの開発に寄与する。
論文 参考訳(メタデータ) (2024-04-26T16:19:55Z) - Explainable Attention for Few-shot Learning and Beyond [7.044125601403848]
本稿では,説明可能な難易度発見,特に数発の学習シナリオに適した新しいフレームワークを提案する。
提案手法では、深層強化学習を用いて、生の入力データに直接影響するハードアテンションの概念を実装している。
論文 参考訳(メタデータ) (2023-10-11T18:33:17Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - ParGANDA: Making Synthetic Pedestrians A Reality For Object Detection [2.7648976108201815]
本稿では,GAN(Generative Adversarial Network)を用いて,実データと合成データのギャップを埋めることを提案する。
我々のアプローチは、視覚的に可視なサンプルを生成するだけでなく、実際のドメインのラベルも必要としない。
論文 参考訳(メタデータ) (2023-07-21T05:26:32Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。