論文の概要: Universal Object Detection with Large Vision Model
- arxiv url: http://arxiv.org/abs/2212.09408v3
- Date: Thu, 12 Oct 2023 07:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 15:27:42.534545
- Title: Universal Object Detection with Large Vision Model
- Title(参考訳): 大視野モデルを用いたユニバーサル物体検出
- Authors: Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin
Chen, Yong Xu, Xiaoyu Wang
- Abstract要約: 本研究は,大規模多領域普遍物体検出問題に焦点をあてる。
これらの課題に対処するために,ラベル処理,階層型設計,資源効率のよいモデルトレーニングを提案する。
本手法は,ロバスト・ビジョン・チャレンジ2022のオブジェクト検出トラックにおいて,優れた2位の地位を確保した。
- 参考スコア(独自算出の注目度): 79.06618136217142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, there has been growing interest in developing a
broad, universal, and general-purpose computer vision system. Such systems have
the potential to address a wide range of vision tasks simultaneously, without
being limited to specific problems or data domains. This universality is
crucial for practical, real-world computer vision applications. In this study,
our focus is on a specific challenge: the large-scale, multi-domain universal
object detection problem, which contributes to the broader goal of achieving a
universal vision system. This problem presents several intricate challenges,
including cross-dataset category label duplication, label conflicts, and the
necessity to handle hierarchical taxonomies. To address these challenges, we
introduce our approach to label handling, hierarchy-aware loss design, and
resource-efficient model training utilizing a pre-trained large vision model.
Our method has demonstrated remarkable performance, securing a prestigious
second-place ranking in the object detection track of the Robust Vision
Challenge 2022 (RVC 2022) on a million-scale cross-dataset object detection
benchmark. We believe that our comprehensive study will serve as a valuable
reference and offer an alternative approach for addressing similar challenges
within the computer vision community. The source code for our work is openly
available at https://github.com/linfeng93/Large-UniDet.
- Abstract(参考訳): ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発への関心が高まっている。
このようなシステムには、特定の問題やデータドメインに制限されることなく、幅広いビジョンタスクを同時に処理する能力がある。
この普遍性は現実のコンピュータビジョンアプリケーションにとって不可欠である。
本研究では,大規模で多領域の普遍的物体検出問題に焦点をあて,普遍的視覚システムの実現というより広い目標に寄与する。
この問題は、クロスデータセットのカテゴリラベルの重複、ラベルの競合、階層的な分類を扱う必要性など、いくつかの複雑な課題を示している。
これらの課題に対処するため,我々は,ラベル処理,階層認識損失設計,および事前学習された大規模ビジョンモデルを用いたリソース効率の高いモデルトレーニングへのアプローチを紹介する。
提案手法は,ロバスト・ビジョン・チャレンジ2022(RVC 2022)のオブジェクト検出トラックにおいて,100万スケールのクロスデータセット・オブジェクト検出ベンチマークにおいて,上位2位を確保した。
私たちの包括的な研究は貴重な参照となり、コンピュータビジョンコミュニティにおける同様の課題に対処するための別のアプローチを提供すると信じています。
私たちの作業のソースコードはhttps://github.com/linfeng93/Large-UniDet.comで公開されています。
関連論文リスト
- Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文 参考訳(メタデータ) (2024-07-17T14:12:34Z) - V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。
Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。
我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文 参考訳(メタデータ) (2024-06-17T16:58:51Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Open Challenges for Monocular Single-shot 6D Object Pose Estimation [15.01623452269803]
オブジェクトポーズ推定は、ロボット操作、ビンピック、拡張現実、シーン理解を可能にする非自明なタスクである。
単分子オブジェクトのポーズ推定は、高い性能のディープラーニングベースのソリューションの台頭とともに、かなりの勢いを増した。
我々は、研究者が関連する研究のアイデアを定式化し、技術の現状を効果的に進めるために、有望な研究の方向性を特定する。
論文 参考訳(メタデータ) (2023-02-23T07:26:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Person Re-identification: A Retrospective on Domain Specific Open
Challenges and Future Trends [2.4907242954727926]
人物再識別(Re-ID)は、自動化された視覚監視システムの主要な構成要素の1つである。
オーバーラップしない視野を持つマルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている。
論文 参考訳(メタデータ) (2022-02-26T11:55:57Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Weakly Supervised Object Localization and Detection: A Survey [145.5041117184952]
オブジェクトのローカライゼーションと検出は、新しい世代のコンピュータビジョンシステムを開発する上で重要な役割を果たす。
本稿では,(1)古典的モデル,(2)既成の深層ネットワークの特徴表現を用いたアプローチ,(3)ディープラーニングのみに基づくアプローチ,(4)この分野で広く利用されている公開データセットと標準評価指標についてレビューする。
この分野における重要な課題、この分野の開発履歴、各カテゴリーの手法の利点/欠点、異なるカテゴリーの方法間の関係、弱い監督対象のローカリゼーションおよび検出方法の適用、およびこの研究分野の開発をさらに促進するための潜在的な将来の方向性について議論します。
論文 参考訳(メタデータ) (2021-04-16T06:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。