論文の概要: Seeing without Looking: Analysis Pipeline for Child Sexual Abuse
Datasets
- arxiv url: http://arxiv.org/abs/2204.14110v1
- Date: Fri, 29 Apr 2022 14:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 15:12:40.010565
- Title: Seeing without Looking: Analysis Pipeline for Child Sexual Abuse
Datasets
- Title(参考訳): 見ずに見る:子どもの性的虐待データセットの分析パイプライン
- Authors: Camila Laranjeira, Jo\~ao Macedo, Sandra Avila, Jefersson A. dos
Santos
- Abstract要約: 本稿では,データセットとラベルの統計を超越した分析テンプレートを提案する。
トレーニング済みの機械学習モデルの両方で提供される自動信号の抽出に重点を置いている。
我々の目標は、CSAMデータセットの特徴を安全に公開し、研究者がこの分野に参加することを奨励することである。
- 参考スコア(独自算出の注目度): 9.016916087221801
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The online sharing and viewing of Child Sexual Abuse Material (CSAM) are
growing fast, such that human experts can no longer handle the manual
inspection. However, the automatic classification of CSAM is a challenging
field of research, largely due to the inaccessibility of target data that is -
and should forever be - private and in sole possession of law enforcement
agencies. To aid researchers in drawing insights from unseen data and safely
providing further understanding of CSAM images, we propose an analysis template
that goes beyond the statistics of the dataset and respective labels. It
focuses on the extraction of automatic signals, provided both by pre-trained
machine learning models, e.g., object categories and pornography detection, as
well as image metrics such as luminance and sharpness. Only aggregated
statistics of sparse signals are provided to guarantee the anonymity of
children and adolescents victimized. The pipeline allows filtering the data by
applying thresholds to each specified signal and provides the distribution of
such signals within the subset, correlations between signals, as well as a bias
evaluation. We demonstrated our proposal on the Region-based annotated Child
Pornography Dataset (RCPD), one of the few CSAM benchmarks in the literature,
composed of over 2000 samples among regular and CSAM images, produced in
partnership with Brazil's Federal Police. Although noisy and limited in several
senses, we argue that automatic signals can highlight important aspects of the
overall distribution of data, which is valuable for databases that can not be
disclosed. Our goal is to safely publicize the characteristics of CSAM
datasets, encouraging researchers to join the field and perhaps other
institutions to provide similar reports on their benchmarks.
- Abstract(参考訳): 児童性虐待材料(CSAM)のオンライン共有と視聴は急速に増加しており、人間の専門家は手動検査をもはや扱えない。
しかし、CSAMの自動分類は研究の難しい分野であり、主に、個人的かつ法執行機関の単独所有であるべきターゲットデータにアクセスできないためである。
研究者が目に見えないデータから洞察を引き出すのを助け、CSAM画像のさらなる理解を安全に提供するために、データセットとラベルの統計を超えた分析テンプレートを提案する。
オブジェクトカテゴリやポルノ検出などの事前学習された機械学習モデルと、輝度やシャープネスなどの画像メトリクスの両方によって提供される、自動信号の抽出に焦点を当てている。
被害を受けた子どもや青年の匿名性を保証するため、スパース信号の集計統計のみを提供する。
このパイプラインでは、指定された各信号にしきい値を適用してデータをフィルタリングし、その信号のサブセット内分布、信号間の相関、バイアス評価を提供する。
ブラジル連邦警察と共同で作成したCSAM画像とCSAM画像の2000点以上のサンプルからなる文献における数少ないCSAMベンチマークの1つであるRCPD(Regional-based annotated Child Pornography Dataset)に関する提案を行った。
いくつかの意味でノイズや制限があるが、自動信号は、開示できないデータベースにとって価値のある、データの全体分布の重要な側面を浮き彫りにすることができる。
私たちの目標は、CSAMデータセットの特徴を安全に公開し、研究者がこの分野に参加するよう促すことです。
関連論文リスト
- SIG: A Synthetic Identity Generation Pipeline for Generating Evaluation Datasets for Face Recognition [0.0]
我々は、顔認識評価のための倫理的バランスの取れたデータセットをターゲットとするSIG(Synthetic Identity Generation Pipeline)を導入する。
我々のパイプラインは、人種、性別、年齢など、制御可能なポーズ、顔の特徴、人口特性を持つ合成アイデンティティの高品質な画像を生成する。
また、人種、性別、年齢間でバランスのとれた3,336のユニークな合成アイデンティティの10,008の顔画像からなる、ControlFace10kというオープンソースの評価データセットもリリースしました。
論文 参考訳(メタデータ) (2024-09-12T18:18:02Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Detecting sexually explicit content in the context of the child sexual abuse materials (CSAM): end-to-end classifiers and region-based networks [0.0]
子どもの性的虐待物質(CSAM)は、世界中の子供の安全と幸福を脅かす。
本研究は、CSAM自動検出システムにおいて重要な役割を担う性的な内容の分類方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T09:21:08Z) - Leveraging Synthetic Data for Generalizable and Fair Facial Action Unit Detection [9.404202619102943]
本稿では,合成データとマルチソースドメイン適応(MSDA)を用いて,ラベル付きデータの不足や対象の多様性の問題に対処することを提案する。
具体的には,合成表情再ターゲティングにより多様なデータセットを生成することを提案する。
ジェンダーフェアネスをさらに向上させるために、PM2は実際のデータの特徴と女性と男性の合成画像とを一致させる。
論文 参考訳(メタデータ) (2024-03-15T23:50:18Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - AI-based Re-identification of Behavioral Clickstream Data [0.0]
本論文は, 行動パターンに基づいて, 個人を純粋に同定する上で, 同様の手法が適用可能であることを実証する。
レコード間の振舞いパターンの単なる類似性は、識別された個人に振舞いデータを正しく属性付けるのに十分である。
また、私たちが導入したAIベースの再識別攻撃に対して回復力があることが示されています。
論文 参考訳(メタデータ) (2022-01-21T16:49:00Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Metadata-Based Detection of Child Sexual Abuse Material [1.1470070927586016]
チャイルド・セクシャル・ユース・メディア(Child Sexual Abuse Media, CSAM)は、未成年者を含む性行為の視覚的記録である。
本稿では,CSAM識別のためのデプロイメント対応機械学習モデルのトレーニングと評価を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T23:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。