論文の概要: ImageSubject: A Large-scale Dataset for Subject Detection
- arxiv url: http://arxiv.org/abs/2201.03101v1
- Date: Sun, 9 Jan 2022 22:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 01:01:35.217655
- Title: ImageSubject: A Large-scale Dataset for Subject Detection
- Title(参考訳): ImageSubject:対象検出のための大規模データセット
- Authors: Xin Miao, Jiayi Liu, Huayan Wang, Jun Fu
- Abstract要約: 主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。
主対象を検出することは、機械が画像やビデオの内容を理解するのを助ける重要な技術である。
我々は、オブジェクトのレイアウトを理解し、その中の主要な対象を見つけるために、モデルのトレーニングを目標とする新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 9.430492045581534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Main subjects usually exist in the images or videos, as they are the objects
that the photographer wants to highlight. Human viewers can easily identify
them but algorithms often confuse them with other objects. Detecting the main
subjects is an important technique to help machines understand the content of
images and videos. We present a new dataset with the goal of training models to
understand the layout of the objects and the context of the image then to find
the main subjects among them. This is achieved in three aspects. By gathering
images from movie shots created by directors with professional shooting skills,
we collect the dataset with strong diversity, specifically, it contains
107\,700 images from 21\,540 movie shots. We labeled them with the bounding box
labels for two classes: subject and non-subject foreground object. We present a
detailed analysis of the dataset and compare the task with saliency detection
and object detection. ImageSubject is the first dataset that tries to localize
the subject in an image that the photographer wants to highlight. Moreover, we
find the transformer-based detection model offers the best result among other
popular model architectures. Finally, we discuss the potential applications and
conclude with the importance of the dataset.
- Abstract(参考訳): 主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。
人間の視聴者は容易に識別できるが、アルゴリズムはそれらを他のオブジェクトと混同することが多い。
主な被写体を検出することは、機械が画像やビデオの内容を理解するのに役立つ重要な技術である。
オブジェクトのレイアウトと画像のコンテキストを学習モデルで理解し,その中の主対象を見つけることを目的として,新しいデータセットを提案する。
これは3つの側面で達成される。
プロの撮影スキルを持つ監督が制作した映画撮影映像から画像を集め,21,540本の映画撮影映像から107,700枚の画像を含む,強い多様性を持つデータセットを収集した。
2つのクラス - subject と non-subject foreground object のバウンディングボックスラベルでラベル付けしました。
本稿では,データセットの詳細な解析を行い,そのタスクを塩分検出とオブジェクト検出と比較する。
imagesubjectは、写真家がハイライトしたい画像に被写体をローカライズしようとする最初のデータセットである。
さらに、変換器に基づく検出モデルは、他の一般的なモデルアーキテクチャの中でも最良の結果をもたらす。
最後に、潜在的なアプリケーションについて議論し、データセットの重要性を結論付ける。
関連論文リスト
- Structuring Quantitative Image Analysis with Object Prominence [0.0]
データとして画像を分析するための重要なステップとして,オブジェクトの優位性について慎重に検討する。
我々の手法は質的な分析と定量的アプローチのスケーラビリティを組み合わせる。
論文 参考訳(メタデータ) (2024-08-30T19:05:28Z) - 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Salient Object Detection for Images Taken by People With Vision
Impairments [13.157939981657886]
本稿では、視覚障害者が撮影した画像を用いた、新しい有能な物体検出データセットを提案する。
VizWiz-SalientObjectは最大(つまり32,000個の人称注釈付き画像)で、ユニークな特徴を持っている。
我々は、我々のデータセットで7つの現代的な正当性オブジェクト検出方法のベンチマークを行い、それらが大きな画像、より複雑な境界、テキストの欠如に最も苦労していることを発見した。
論文 参考訳(メタデータ) (2023-01-12T22:33:01Z) - Automatic dataset generation for specific object detection [6.346581421948067]
本研究では,オブジェクトの詳細な特徴を,無関係な情報を得ることなく保存することができるオブジェクト・イン・シーン・イメージの合成手法を提案する。
その結果,合成画像では,物体の境界が背景とよく一致していることがわかった。
論文 参考訳(メタデータ) (2022-07-16T07:44:33Z) - FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments [21.393674766169543]
本稿では,オブジェクト認識のためのFew-Shot Object Learningデータセットについて紹介する。
私たちは、異なる視点から、オブジェクトごとに9つのRGB-D画像を持つ336の現実世界のオブジェクトをキャプチャしました。
評価結果から, ロボット環境下では, 数発の物体分類において, 改良の余地がまだ大きいことが示唆された。
論文 参考訳(メタデータ) (2022-07-06T05:57:24Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Counting from Sky: A Large-scale Dataset for Remote Sensing Object
Counting and A Benchmark Method [52.182698295053264]
リモートセンシング画像から高密度物体をカウントすることに興味がある。自然界における物体のカウントと比較すると、このタスクは、大規模変動、複雑な乱れ背景、配向仲裁といった要因において困難である。
これらの課題に対処するために,我々はまず,4つの重要な地理的対象を含むリモートセンシング画像を用いた大規模オブジェクトカウントデータセットを構築した。
次に、入力画像の密度マップを生成する新しいニューラルネットワークを設計することで、データセットをベンチマークする。
論文 参考訳(メタデータ) (2020-08-28T03:47:49Z) - Improving Object Detection with Selective Self-supervised Self-training [62.792445237541145]
本研究では,Web画像を利用した人為的対象検出データセットの強化について検討する。
画像と画像の検索によりWebイメージを検索し、他の検索手法に比べて、キュレートされたデータからのドメインシフトが少なくなる。
画像分類のためのラベルのないデータを探索する2つの並列処理をモチベーションとした新しい学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T18:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。