論文の概要: Inferring Offensiveness In Images From Natural Language Supervision
- arxiv url: http://arxiv.org/abs/2110.04222v1
- Date: Fri, 8 Oct 2021 16:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 16:48:42.799044
- Title: Inferring Offensiveness In Images From Natural Language Supervision
- Title(参考訳): 自然言語による画像の不快感の推測
- Authors: Patrick Schramowski, Kristian Kersting
- Abstract要約: ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
- 参考スコア(独自算出の注目度): 20.294073012815854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probing or fine-tuning (large-scale) pre-trained models results in
state-of-the-art performance for many NLP tasks and, more recently, even for
computer vision tasks when combined with image data. Unfortunately, these
approaches also entail severe risks. In particular, large image datasets
automatically scraped from the web may contain derogatory terms as categories
and offensive images, and may also underrepresent specific classes.
Consequently, there is an urgent need to carefully document datasets and curate
their content. Unfortunately, this process is tedious and error-prone. We show
that pre-trained transformers themselves provide a methodology for the
automated curation of large-scale vision datasets. Based on human-annotated
examples and the implicit knowledge of a CLIP based model, we demonstrate that
one can select relevant prompts for rating the offensiveness of an image. In
addition to e.g. privacy violation and pornographic content previously
identified in ImageNet, we demonstrate that our approach identifies further
inappropriate and potentially offensive content.
- Abstract(参考訳): 事前学習されたモデルの検出や微調整は、多くのnlpタスクや、最近では画像データと組み合わせたコンピュータビジョンタスクでも最先端のパフォーマンスをもたらす。
残念ながら、これらのアプローチには深刻なリスクも伴う。
特に、ウェブから自動的に取り除かれた大きな画像データセットには、カテゴリーや攻撃的なイメージとして軽蔑的な用語が含まれており、特定のクラスを過小評価することもある。
そのため、データセットを慎重に文書化し、コンテンツをキュレートする必要がある。
残念ながら、このプロセスは退屈でエラーを起こしやすい。
事前学習されたトランスフォーマー自体が,大規模視覚データセットの自動キュレーションの方法論を提供する。
人間の注釈付き例とCLIPモデルによる暗黙の知識に基づいて、画像の攻撃性を評価するための適切なプロンプトを選択できることを実証する。
ImageNetで以前特定されたプライバシー侵害やポルノコンテンツに加えて、我々のアプローチがさらに不適切で攻撃的なコンテンツを特定することを実証する。
関連論文リスト
- Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Improving Fractal Pre-training [0.76146285961466]
動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
論文 参考訳(メタデータ) (2021-10-06T22:39:51Z) - Data-driven Meta-set Based Fine-Grained Visual Classification [61.083706396575295]
本稿では, ノイズの多いWeb画像に対して, 微粒化認識のためのデータ駆動型メタセットベースアプローチを提案する。
具体的には、少量のクリーンなメタセットでガイドされ、メタラーニング方式で選択ネットを訓練し、分布内および分布外ノイズ画像の識別を行う。
論文 参考訳(メタデータ) (2020-08-06T03:04:16Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z) - Privacy-Preserving Image Classification in the Local Setting [17.375582978294105]
ローカル微分プライバシ(LDP)は、データ所有者がランダムにインプットを摂動させ、リリース前にデータの妥当な削除を可能にする、有望なソリューションを提供する。
本稿では、データ所有者が画像を保持し、不信なデータ利用者が機械学習モデルにこれらの画像を入力として適合させたいという、双方向のイメージ分類問題について考察する。
本稿では,拡張性のある領域サイズで画像表現を生成する,教師付き画像特徴抽出器 DCAConv を提案する。
論文 参考訳(メタデータ) (2020-02-09T01:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。