論文の概要: VizWiz-FewShot: Locating Objects in Images Taken by People With Visual
Impairments
- arxiv url: http://arxiv.org/abs/2207.11810v1
- Date: Sun, 24 Jul 2022 20:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:41:10.052486
- Title: VizWiz-FewShot: Locating Objects in Images Taken by People With Visual
Impairments
- Title(参考訳): VizWiz-FewShot:視覚障害者が撮影した画像に物体を配置する
- Authors: Yu-Yun Tseng, Alexander Bell, and Danna Gurari
- Abstract要約: 我々は、撮影した画像の視覚的内容について真に学ぼうとしていた写真家を起源とする、数発のローカライゼーションデータセットを紹介した。
視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。
既存の数発のオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴を見つける最初のものです。
- 参考スコア(独自算出の注目度): 74.72656607288185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a few-shot localization dataset originating from photographers
who authentically were trying to learn about the visual content in the images
they took. It includes nearly 10,000 segmentations of 100 categories in over
4,500 images that were taken by people with visual impairments. Compared to
existing few-shot object detection and instance segmentation datasets, our
dataset is the first to locate holes in objects (e.g., found in 12.3\% of our
segmentations), it shows objects that occupy a much larger range of sizes
relative to the images, and text is over five times more common in our objects
(e.g., found in 22.4\% of our segmentations). Analysis of three modern few-shot
localization algorithms demonstrates that they generalize poorly to our new
dataset. The algorithms commonly struggle to locate objects with holes, very
small and very large objects, and objects lacking text. To encourage a larger
community to work on these unsolved challenges, we publicly share our annotated
few-shot dataset at https://vizwiz.org .
- Abstract(参考訳): 撮影された画像の視覚的コンテンツについて真に学ぼうとしていた写真家から生まれた,数ショットのローカライズデータセットを紹介します。
視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。
既存の少数ショットオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴(例えば、セグメンテーションの12.3\%)を最初に見つけ、画像に対してはるかに大きな範囲の大きさを占めるオブジェクトを示し、テキストは、オブジェクト(例えば、セグメンテーションの22.4\%)の5倍以上の頻度で使われている。
現代の3つのマイナショットローカライズアルゴリズムの分析は、新しいデータセットに貧弱に一般化していることを示しています。
アルゴリズムは通常、穴のある物体、非常に小さくて大きな物体、そしてテキストが欠けている物体を見つけるのに苦労する。
より大きなコミュニティがこれらの未解決の課題に取り組むように促すため、私たちは注釈付き少数ショットデータセットをhttps://vizwiz.org.com/で公開しています。
関連論文リスト
- Salient Object Detection for Images Taken by People With Vision
Impairments [13.157939981657886]
本稿では、視覚障害者が撮影した画像を用いた、新しい有能な物体検出データセットを提案する。
VizWiz-SalientObjectは最大(つまり32,000個の人称注釈付き画像)で、ユニークな特徴を持っている。
我々は、我々のデータセットで7つの現代的な正当性オブジェクト検出方法のベンチマークを行い、それらが大きな画像、より複雑な境界、テキストの欠如に最も苦労していることを発見した。
論文 参考訳(メタデータ) (2023-01-12T22:33:01Z) - FewSOL: A Dataset for Few-Shot Object Learning in Robotic Environments [21.393674766169543]
本稿では,オブジェクト認識のためのFew-Shot Object Learningデータセットについて紹介する。
私たちは、異なる視点から、オブジェクトごとに9つのRGB-D画像を持つ336の現実世界のオブジェクトをキャプチャしました。
評価結果から, ロボット環境下では, 数発の物体分類において, 改良の余地がまだ大きいことが示唆された。
論文 参考訳(メタデータ) (2022-07-06T05:57:24Z) - ImageSubject: A Large-scale Dataset for Subject Detection [9.430492045581534]
主に被写体は、写真家が強調したいものなので、通常、画像やビデオの中に存在します。
主対象を検出することは、機械が画像やビデオの内容を理解するのを助ける重要な技術である。
我々は、オブジェクトのレイアウトを理解し、その中の主要な対象を見つけるために、モデルのトレーニングを目標とする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-01-09T22:49:59Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - PartImageNet: A Large, High-Quality Dataset of Parts [16.730418538593703]
パートセグメンテーションアノテーションを備えた高品質なデータセットであるPartImageNetを提案する。
PartImageNetは、非厳密で明示的なオブジェクトを持つ一般的なクラスのセットに、部分レベルのアノテーションを提供するため、ユニークなものだ。
複数の視覚タスクで使用できるが、制限はない:Part Discovery、Few-shot Learning。
論文 参考訳(メタデータ) (2021-12-02T02:12:03Z) - Few-Shot Learning for Video Object Detection in a Transfer-Learning
Scheme [70.45901040613015]
ビデオ物体検出のための数発学習の新たな課題について検討する。
我々は,多数のベースクラスオブジェクトに対して映像物体検出を効果的に訓練するトランスファー学習フレームワークと,ノベルクラスオブジェクトのいくつかのビデオクリップを用いる。
論文 参考訳(メタデータ) (2021-03-26T20:37:55Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。