論文の概要: Million-scale Object Detection with Large Vision Model
- arxiv url: http://arxiv.org/abs/2212.09408v1
- Date: Mon, 19 Dec 2022 12:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:39:50.173604
- Title: Million-scale Object Detection with Large Vision Model
- Title(参考訳): 大規模視覚モデルによる何百万もの物体検出
- Authors: Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin
Chen, Yong Xu, Xiaoyu Wang
- Abstract要約: 本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングについて紹介する。
本手法は,ロバスト・ビジョン・チャレンジ2022の物体検出トラックで2位にランクされている。
- 参考スコア(独自算出の注目度): 67.16171069696613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, developing a broad, universal, and general-purpose
computer vision system has become a hot topic. A powerful universal system
would be capable of solving diverse vision tasks simultaneously without being
restricted to a specific problem or a specific data domain, which is of great
importance in practical real-world computer vision applications. This study
pushes the direction forward by concentrating on the million-scale multi-domain
universal object detection problem. The problem is not trivial due to its
complicated nature in terms of cross-dataset category label duplication, label
conflicts, and the hierarchical taxonomy handling. Moreover, what is the
resource-efficient way to utilize emerging large pre-trained vision models for
million-scale cross-dataset object detection remains an open challenge. This
paper tries to address these challenges by introducing our practices in label
handling, hierarchy-aware loss design and resource-efficient model training
with a pre-trained large model. Our method is ranked second in the object
detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our
detailed study would serve as an alternative practice paradigm for similar
problems in the community. The code is available at
https://github.com/linfeng93/Large-UniDet.
- Abstract(参考訳): ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発がホットな話題になっている。
強力なユニバーサルシステムは、特定の問題や特定のデータ領域に制限されることなく、多様なビジョンタスクを同時に解決することができる。
本研究では,百万単位の汎用オブジェクト検出問題に集中することで,その方向を推し進める。
この問題は、横断データセットのカテゴリラベルの重複、ラベルの競合、階層的な分類の扱いといった点で複雑であるため、自明ではない。
さらに、数百万スケールのクロスデータセットオブジェクト検出のために、新たな大規模事前学習ビジョンモデルを利用するためのリソース効率のよい方法は、まだ未解決の課題である。
本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングの実践を通じて,これらの課題に対処する。
本手法はロバストビジョンチャレンジ2022(rvc2022)の物体検出トラックにおいて第2位である。
私たちの詳細な研究が、コミュニティの同様の問題に対する代替の実践パラダイムになることを期待しています。
コードはhttps://github.com/linfeng93/Large-UniDetで公開されている。
関連論文リスト
- Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。
我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。
基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文 参考訳(メタデータ) (2024-07-17T14:12:34Z) - V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。
Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。
我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文 参考訳(メタデータ) (2024-06-17T16:58:51Z) - Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。
本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:56Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Open Challenges for Monocular Single-shot 6D Object Pose Estimation [15.01623452269803]
オブジェクトポーズ推定は、ロボット操作、ビンピック、拡張現実、シーン理解を可能にする非自明なタスクである。
単分子オブジェクトのポーズ推定は、高い性能のディープラーニングベースのソリューションの台頭とともに、かなりの勢いを増した。
我々は、研究者が関連する研究のアイデアを定式化し、技術の現状を効果的に進めるために、有望な研究の方向性を特定する。
論文 参考訳(メタデータ) (2023-02-23T07:26:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Person Re-identification: A Retrospective on Domain Specific Open
Challenges and Future Trends [2.4907242954727926]
人物再識別(Re-ID)は、自動化された視覚監視システムの主要な構成要素の1つである。
オーバーラップしない視野を持つマルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている。
論文 参考訳(メタデータ) (2022-02-26T11:55:57Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Weakly Supervised Object Localization and Detection: A Survey [145.5041117184952]
オブジェクトのローカライゼーションと検出は、新しい世代のコンピュータビジョンシステムを開発する上で重要な役割を果たす。
本稿では,(1)古典的モデル,(2)既成の深層ネットワークの特徴表現を用いたアプローチ,(3)ディープラーニングのみに基づくアプローチ,(4)この分野で広く利用されている公開データセットと標準評価指標についてレビューする。
この分野における重要な課題、この分野の開発履歴、各カテゴリーの手法の利点/欠点、異なるカテゴリーの方法間の関係、弱い監督対象のローカリゼーションおよび検出方法の適用、およびこの研究分野の開発をさらに促進するための潜在的な将来の方向性について議論します。
論文 参考訳(メタデータ) (2021-04-16T06:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。