Fugu-MT 論文翻訳(概要): V3Det: Vast Vocabulary Visual Detection Dataset

論文の概要: V3Det: Vast Vocabulary Visual Detection Dataset

arxiv url: http://arxiv.org/abs/2304.03752v2
Date: Thu, 5 Oct 2023 12:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:44:50.002037
Title: V3Det: Vast Vocabulary Visual Detection Dataset
Title（参考訳）: V3Det:Vast Vocabulary Visual Detectionデータセット
Authors: Jiaqi Wang, Pan Zhang, Tao Chu, Yuhang Cao, Yujie Zhou, Tong Wu, Bin Wang, Conghui He, Dahua Lin
Abstract要約: V3Detは巨大なボキャブラリの視覚検出データセットで、大量の画像に正確に注釈付けされたバウンディングボックスがある。広大な探索空間を提供することで、V3Detは広大かつオープンな語彙オブジェクト検出に関する広範なベンチマークを可能にする。
参考スコア（独自算出の注目度）: 69.50942928928052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in detecting arbitrary objects in the real world are trained and evaluated on object detection datasets with a relatively restricted vocabulary. To facilitate the development of more general visual object detection, we propose V3Det, a vast vocabulary visual detection dataset with precisely annotated bounding boxes on massive images. V3Det has several appealing properties: 1) Vast Vocabulary: It contains bounding boxes of objects from 13,204 categories on real-world images, which is 10 times larger than the existing large vocabulary object detection dataset, e.g., LVIS. 2) Hierarchical Category Organization: The vast vocabulary of V3Det is organized by a hierarchical category tree which annotates the inclusion relationship among categories, encouraging the exploration of category relationships in vast and open vocabulary object detection. 3) Rich Annotations: V3Det comprises precisely annotated objects in 243k images and professional descriptions of each category written by human experts and a powerful chatbot. By offering a vast exploration space, V3Det enables extensive benchmarks on both vast and open vocabulary object detection, leading to new observations, practices, and insights for future research. It has the potential to serve as a cornerstone dataset for developing more general visual perception systems. V3Det is available at https://v3det.openxlab.org.cn/.
Abstract（参考訳）: 近年のオブジェクト検出技術は,比較的制限された語彙を持つオブジェクト検出データセットを用いて訓練・評価されている。より一般的なビジュアルオブジェクト検出の開発を容易にするため,大規模画像上に正確に注釈付き有界ボックスを付加した膨大な語彙付き視覚検出データセットであるV3Detを提案する。 V3Detにはいくつかの魅力的な特性がある。 1)Vast Vocabulary: 実世界の画像上の13,204のカテゴリのオブジェクトのバウンディングボックスを含み、既存の大きな語彙オブジェクト検出データセット(例えばLVIS)の10倍の大きさである。 2) 階層的分類組織: V3Detの広大な語彙は階層的カテゴリー木によって構成され, カテゴリ間の包含関係を注釈し, 広範かつオープンな語彙オブジェクト検出におけるカテゴリ関係の探索を促進する。 3)リッチアノテーション:v3detは243k画像に正確にアノテートされたオブジェクトと、人間の専門家と強力なチャットボットによって書かれた各カテゴリの専門的な記述からなる。広大な探索空間を提供することで、V3Detは、広大かつオープンな語彙オブジェクト検出の広範なベンチマークを可能にし、将来の研究のための新しい観察、プラクティス、洞察につながる。より一般的な視覚知覚システムを開発するための基盤となるデータセットとして機能する可能性がある。 V3Detはhttps://v3det.openxlab.org.cn/で入手できる。

関連論文リスト

Test-time Vocabulary Adaptation for Language-driven Object Detection [42.25065847785535]
本稿では,ユーザ定義語彙を改良するためのVocAda(VocAda)を提案する。 VocAdaはトレーニングを一切必要とせず、推論時に3つのステップで動作します。 COCOとObjects365の3つの最先端検出器による実験は、VocAdaが一貫して性能を改善していることを示している。
論文参考訳（メタデータ） (2025-05-31T01:15:29Z)
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding [43.69535335079362]
Open-vocabulary 3D scene understanding (OV-3D)は、閉じたオブジェクトクラス以外の新しいオブジェクトをローカライズし分類することを目的としている。既存のアプローチとベンチマークは、主にオブジェクトクラスのコンテキスト内のオープンな語彙の問題に焦点を当てている。我々は、オブジェクトクラスを超えたオープンな語彙問題を探索するために、汎用オープン語彙3Dシーン理解(GOV-3D)と呼ばれるより困難なタスクを導入する。
論文参考訳（メタデータ） (2024-08-20T17:31:48Z)
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation [20.7179907935644]
3D-AVSは3Dポイントクラウドのオートボキャブラリの手法で、ボキャブラリが未知であり、実行時に各入力に対して自動生成される。 3D-AVSはまずイメージまたはポイントクラウドデータからセマンティックエンティティを認識し、次に自動的に生成された語彙ですべてのポイントをセグメンテーションする。本手法は、画像ベースと点ベースの両方の認識を取り入れ、難解な照明条件下で頑健さを向上する。
論文参考訳（メタデータ） (2024-06-13T13:59:47Z)
DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。 DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。 DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文参考訳（メタデータ） (2024-04-14T11:01:44Z)
The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding [8.448399308205266]
本研究では,動的語彙生成に基づく評価プロトコルを導入し,モデルがオブジェクトに対して正確な粒度記述を検出し,識別し,割り当てるかどうかを検証する。提案プロトコルを用いて,最先端のオープンボキャブラリオブジェクト検出器を複数評価することにより,研究をさらに強化する。
論文参考訳（メタデータ） (2023-11-29T10:40:52Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Object2Scene: Putting Objects in Context for Open-Vocabulary 3D Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文参考訳（メタデータ） (2023-09-18T03:31:53Z)
Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文参考訳（メタデータ） (2023-05-29T17:50:33Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Exploiting Unlabeled Data with Vision and Language Models for Object Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文参考訳（メタデータ） (2022-07-18T21:47:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。