論文の概要: MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects
- arxiv url: http://arxiv.org/abs/2412.04867v1
- Date: Fri, 06 Dec 2024 09:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:10.092039
- Title: MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects
- Title(参考訳): MANTA: ティニーオブジェクトのための大規模マルチビューとビジュアルテキスト異常検出データセット
- Authors: Lei Fan, Dongdong Fan, Zhiguang Hu, Yiwen Ding, Donglin Di, Kai Yi, Maurice Pagnucco, Yang Song,
- Abstract要約: 我々は、小さなオブジェクトに対する視覚的テキスト異常検出データセットであるMANTAを提案する。
ビジュアルコンポーネントは、典型的な5つのドメインにまたがる38のオブジェクトカテゴリにわたる137.3Kイメージを含む。
テキストコンポーネントは2つのサブセットで構成されており、共通の異常を記述した875の単語を含む宣言的知識と、様々な難易度で2Kの多重選択質問を提供する構成的学習である。
- 参考スコア(独自算出の注目度): 18.711657127220665
- License:
- Abstract: We present MANTA, a visual-text anomaly detection dataset for tiny objects. The visual component comprises over 137.3K images across 38 object categories spanning five typical domains, of which 8.6K images are labeled as anomalous with pixel-level annotations. Each image is captured from five distinct viewpoints to ensure comprehensive object coverage. The text component consists of two subsets: Declarative Knowledge, including 875 words that describe common anomalies across various domains and specific categories, with detailed explanations for < what, why, how>, including causes and visual characteristics; and Constructivist Learning, providing 2K multiple-choice questions with varying levels of difficulty, each paired with images and corresponded answer explanations. We also propose a baseline for visual-text tasks and conduct extensive benchmarking experiments to evaluate advanced methods across different settings, highlighting the challenges and efficacy of our dataset.
- Abstract(参考訳): 我々は、小さなオブジェクトに対する視覚的テキスト異常検出データセットであるMANTAを提案する。
ビジュアルコンポーネントは、典型的な5つのドメインにまたがる38のオブジェクトカテゴリにまたがる137.3Kイメージを含み、そのうち8.6Kイメージはピクセルレベルのアノテーションで異常にラベル付けされている。
各画像は、包括的なオブジェクトカバレッジを保証するために、5つの異なる視点からキャプチャされる。
テキストコンポーネントは2つのサブセットから構成される: 宣言的知識は、様々なドメインや特定のカテゴリに共通する異常を記述した875語を含み、原因や視覚的特徴を含む、何、なぜ、どのように、どのように?
また、視覚テキストタスクのベースラインを提案し、様々な設定で高度なメソッドを評価するための広範なベンチマーク実験を行い、データセットの課題と有効性を強調します。
関連論文リスト
- MARS: Paying more attention to visual attributes for text-based person search [6.438244172631555]
本稿ではMARS(Mae-Attribute-Relation-Sensitive)という新しいTBPSアーキテクチャを提案する。
ビジュアルレコンストラクションロスと属性ロスという2つの重要なコンポーネントを導入することで、現在の最先端モデルを強化する。
CUHK-PEDES、ICFG-PEDES、RSTPReidの3つの一般的なデータセットの実験では、パフォーマンス改善が報告されている。
論文 参考訳(メタデータ) (2024-07-05T06:44:43Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Panoptic Perception: A Novel Task and Fine-grained Dataset for Universal Remote Sensing Image Interpretation [19.987706084203523]
本稿では,新しいタスクであるPanoptic Perceptionと,より徹底的で普遍的なRSI解釈を実現するためのFineGrip(FineGrip)を提案する。
新しいタスクは、ピクセルレベル、インスタンスレベル、イメージレベル情報を統合して、普遍的なイメージ知覚を実現する。
FineGripデータセットには、2,649のリモートセンシングイメージ、20のフォアグラウンドに属する12,054のきめ細かいインスタンスセグメンテーションマスク、5つのクラスのための7,599のバックグラウンドセマンティックマスク、13,245のキャプション文が含まれている。
論文 参考訳(メタデータ) (2024-04-06T12:27:21Z) - V3Det: Vast Vocabulary Visual Detection Dataset [69.50942928928052]
V3Detは巨大なボキャブラリの視覚検出データセットで、大量の画像に正確に注釈付けされたバウンディングボックスがある。
広大な探索空間を提供することで、V3Detは広大かつオープンな語彙オブジェクト検出に関する広範なベンチマークを可能にする。
論文 参考訳(メタデータ) (2023-04-07T17:45:35Z) - Salient Object Detection for Images Taken by People With Vision
Impairments [13.157939981657886]
本稿では、視覚障害者が撮影した画像を用いた、新しい有能な物体検出データセットを提案する。
VizWiz-SalientObjectは最大(つまり32,000個の人称注釈付き画像)で、ユニークな特徴を持っている。
我々は、我々のデータセットで7つの現代的な正当性オブジェクト検出方法のベンチマークを行い、それらが大きな画像、より複雑な境界、テキストの欠如に最も苦労していることを発見した。
論文 参考訳(メタデータ) (2023-01-12T22:33:01Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - VizWiz-FewShot: Locating Objects in Images Taken by People With Visual
Impairments [74.72656607288185]
我々は、撮影した画像の視覚的内容について真に学ぼうとしていた写真家を起源とする、数発のローカライゼーションデータセットを紹介した。
視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。
既存の数発のオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴を見つける最初のものです。
論文 参考訳(メタデータ) (2022-07-24T20:44:51Z) - ACDC: The Adverse Conditions Dataset with Correspondences for Robust Semantic Driving Scene Perception [86.03633244019954]
レベル5の運転自動化には、任意の条件下で入力画像を解析できる堅牢な視覚認識システムが必要である。
本稿では,視覚条件に対する多種多様な意味認識タスクの訓練と試験のための逆条件データセットであるACDCを紹介する。
詳細な実証研究は、ACDCの有害領域が最先端の監督と教師なしのアプローチにもたらす課題を実証している。
論文 参考訳(メタデータ) (2021-04-27T18:00:05Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。