論文の概要: Can Machines Help Us Answering Question 16 in Datasheets, and In Turn
Reflecting on Inappropriate Content?
- arxiv url: http://arxiv.org/abs/2202.06675v1
- Date: Mon, 14 Feb 2022 13:00:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 22:16:08.063118
- Title: Can Machines Help Us Answering Question 16 in Datasheets, and In Turn
Reflecting on Inappropriate Content?
- Title(参考訳): 機械は、データシートの質問16を答えるのに役立ち、不適切なコンテンツを振り返ることができますか?
- Authors: Patrick Schramowski, Christopher Tauchmann, and Kristian Kersting
- Abstract要約: 現在の機械学習の多くを支える大規模なデータセットは、不適切なコンテンツに関する深刻な問題を引き起こす。
我々は、事前訓練されたトランスフォーマーモデルに格納された情報を用いて、ドキュメンテーションプロセスを支援することを提案する。
視覚言語モデルを用いて生成したキャプションに基づいて,単語雲を用いた不適切な画像の文書化を行う。
- 参考スコア(独自算出の注目度): 18.931352065980718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large datasets underlying much of current machine learning raise serious
issues concerning inappropriate content such as offensive, insulting,
threatening, or might otherwise cause anxiety. This calls for increased dataset
documentation, e.g., using datasheets. They, among other topics, encourage to
reflect on the composition of the datasets. So far, this documentation,
however, is done manually and therefore can be tedious and error-prone,
especially for large image datasets. Here we ask the arguably "circular"
question of whether a machine can help us reflect on inappropriate content,
answering Question 16 in Datasheets. To this end, we propose to use the
information stored in pre-trained transformer models to assist us in the
documentation process. Specifically, prompt-tuning based on a dataset of
socio-moral values steers CLIP to identify potentially inappropriate content,
therefore reducing human labor. We then document the inappropriate images found
using word clouds, based on captions generated using a vision-language model.
The documentations of two popular, large-scale computer vision datasets --
ImageNet and OpenImages -- produced this way suggest that machines can indeed
help dataset creators to answer Question 16 on inappropriate image content.
- Abstract(参考訳): 現在の機械学習の大部分を支える巨大なデータセットは、攻撃、侮辱、脅迫、その他不安を引き起こす可能性のある不適切なコンテンツに関する深刻な問題を引き起こす。
これはデータセットのドキュメントの増加、例えばデータシートの使用を要求する。
これらのトピックは、データセットの構成を反映することを奨励している。
しかしこれまでのところ、このドキュメントは手作業で行われており、特に大規模な画像データセットでは面倒でエラーを起こしやすい。
ここでは,不適切なコンテンツに対するリフレクションを機械が支援できるかどうかという,間違いなく「循環的」な疑問を問う。
そこで本研究では,事前学習したトランスフォーマモデルに格納された情報を用いて文書作成を支援することを提案する。
特に、社会道徳的価値のデータセットに基づく即時学習は、CLIPを操り、潜在的に不適切なコンテンツを特定する。
次に,視覚言語モデルを用いて生成したキャプションに基づいて,単語クラウドを用いた不適切な画像を文書化する。
大規模なコンピュータビジョンデータセットであるimagenetとopenimagesの2つのドキュメントは、マシンがデータセット作成者が不適切な画像コンテンツについて質問16に答えるのに役立つことを示唆している。
関連論文リスト
- From Pixels to Prose: A Large Dataset of Dense Image Captions [76.97493750144812]
PixelProseは、合成されたキャプション16万あまりの包括的データセットである。
データ整合性を確保するため、問題のあるコンテンツのデータセットを厳格に分析します。
また、透かしの存在や美的スコアなどの貴重なメタデータも提供します。
論文 参考訳(メタデータ) (2024-06-14T17:59:53Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA
Tasks? A: Self-Train on Unlabeled Images! [103.09776737512077]
SelTDA(Self-Taught Data Augmentation)は、小規模なVQAデータセット上で大きな視覚言語モデルを微調整するための戦略である。
画像上に直接条件付の疑似ラベルを生成することで、未ラベル画像の疑似ラベル作成を可能にする。
我々は, 自己学習によるデータ拡張が, 対向的に検索された質問に対して堅牢性を高めることを示す一連の実験について述べる。
論文 参考訳(メタデータ) (2023-06-06T18:00:47Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Inferring Offensiveness In Images From Natural Language Supervision [20.294073012815854]
ウェブから自動的に取り除かれた大規模な画像データセットには、カテゴリや攻撃的なイメージといった軽蔑的な用語が含まれる可能性がある。
我々は、事前学習されたトランスフォーマー自体が、大規模ビジョンデータセットの自動キュレーションのための方法論を提供することを示した。
論文 参考訳(メタデータ) (2021-10-08T16:19:21Z) - Improving Fractal Pre-training [0.76146285961466]
動的に生成されたフラクタル画像に基づく事前学習データセットを提案する。
実験により, フラクタルを用いたネットワークの微調整は, ImageNet事前訓練ネットワークの精度の92.7-98.1%に達することが示された。
論文 参考訳(メタデータ) (2021-10-06T22:39:51Z) - Multimodal datasets: misogyny, pornography, and malignant stereotypes [2.8682942808330703]
最近リリースされたLAION-400Mデータセットは、Common-Crawlデータセットから解析された画像-Alt-textペアのCLIPフィルタリングデータセットである。
このデータセットには、レイプ、ポルノグラフィー、悪性のステレオタイプ、人種差別的および民族的スラー、その他の非常に問題のあるコンテンツが含まれています。
論文 参考訳(メタデータ) (2021-10-05T11:47:27Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。