論文の概要: A Manually Annotated Image-Caption Dataset for Detecting Children in the Wild
- arxiv url: http://arxiv.org/abs/2506.10117v1
- Date: Wed, 11 Jun 2025 18:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.403224
- Title: A Manually Annotated Image-Caption Dataset for Detecting Children in the Wild
- Title(参考訳): 野生の子供検出のための手動アノテーション付き画像字幕データセット
- Authors: Klim Kireev, Ana-Maria Creţu, Raphael Meier, Sarah Adel Bargal, Elissa Redmiles, Carmela Troncoso,
- Abstract要約: 未成年者の描写を検出するためのベンチマークツールを対象とした画像キャプチャデータセットをリリースする。
ICCWDには、画像中の子供の有無を示すために手動でラベル付けされた1万枚の画像カプセルが含まれている。
以上の結果から, 子どもの発見は, 75.3%の正の正の確率を達成し, 難易度の高い課題であることが示唆された。
- 参考スコア(独自算出の注目度): 12.25468403574749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Platforms and the law regulate digital content depicting minors (defined as individuals under 18 years of age) differently from other types of content. Given the sheer amount of content that needs to be assessed, machine learning-based automation tools are commonly used to detect content depicting minors. To our knowledge, no dataset or benchmark currently exists for detecting these identification methods in a multi-modal environment. To fill this gap, we release the Image-Caption Children in the Wild Dataset (ICCWD), an image-caption dataset aimed at benchmarking tools that detect depictions of minors. Our dataset is richer than previous child image datasets, containing images of children in a variety of contexts, including fictional depictions and partially visible bodies. ICCWD contains 10,000 image-caption pairs manually labeled to indicate the presence or absence of a child in the image. To demonstrate the possible utility of our dataset, we use it to benchmark three different detectors, including a commercial age estimation system applied to images. Our results suggest that child detection is a challenging task, with the best method achieving a 75.3% true positive rate. We hope the release of our dataset will aid in the design of better minor detection methods in a wide range of scenarios.
- Abstract(参考訳): プラットフォームと法律は、他のタイプのコンテンツとは異なる、未成年者(18歳未満の個人として定義される)を描いたデジタルコンテンツを規制している。
評価が必要なコンテンツの量を考えると、機械学習ベースの自動化ツールは、未成年者を描いたコンテンツを検出するために一般的に使用される。
我々の知る限り、これらの識別方法をマルチモーダル環境で検出するためのデータセットやベンチマークは存在しない。
このギャップを埋めるために、未成年者の描写を検出するツールのベンチマークを目的とした画像キャプチャデータセットであるICCWD(Image-Caption Children in the Wild Dataset)をリリースする。
我々のデータセットは、以前の児童画像データセットよりも豊かで、架空の描写や部分的に見える身体を含む、さまざまな状況の子供の画像を含んでいる。
ICCWDには、画像中の子供の有無を示すために手動でラベル付けされた1万枚の画像カプセルが含まれている。
データセットの有用性を実証するために、画像に適用される商用年齢推定システムを含む3つの異なる検出器をベンチマークする。
以上の結果から, 子どもの発見は, 75.3%の正の正の確率を達成し, 難易度の高い課題であることが示唆された。
データセットのリリースは、幅広いシナリオにおいて、より小さな検出方法の設計に役立つことを期待しています。
関連論文リスト
- Efficient Curation of Invertebrate Image Datasets Using Feature Embeddings and Automatic Size Comparison [5.480305055542485]
非脊椎動物の大規模な画像データセットをキュレートする手法を提案する。
我々のアプローチは、事前訓練されたディープニューラルネットワークによる特徴埋め込みの抽出に基づいている。
また,簡単な領域ベースサイズ比較手法により,多くの誤画像が検出可能であることを示す。
論文 参考訳(メタデータ) (2024-12-20T12:35:41Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Content Bias in Deep Learning Image Age Approximation: A new Approach Towards better Explainability [4.088355251010862]
時間画像法医学において、コンテンツバイアスはニューラルネットワークによって利用することができる。
画像コンテンツの影響を評価する新しい手法を提案する。
年齢分類の文脈で提案される深層学習アプローチは,画像内容に大きく依存している可能性が高い。
論文 参考訳(メタデータ) (2023-10-03T14:09:27Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - A Method for Curation of Web-Scraped Face Image Datasets [13.893682217746816]
データセットを集める際には、さまざまな問題が発生する。
何百万もの画像が存在しているため、手作業によるクリーニングは不可能である。
本稿では,顔認識手法をテストするためのクリーンなデータセットを提供することを目標とする半自動手法を提案する。
論文 参考訳(メタデータ) (2020-04-07T01:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。