論文の概要: Million-scale Object Detection with Large Vision Model
- arxiv url: http://arxiv.org/abs/2212.09408v1
- Date: Mon, 19 Dec 2022 12:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:39:50.173604
- Title: Million-scale Object Detection with Large Vision Model
- Title(参考訳): 大規模視覚モデルによる何百万もの物体検出
- Authors: Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin
Chen, Yong Xu, Xiaoyu Wang
- Abstract要約: 本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングについて紹介する。
本手法は,ロバスト・ビジョン・チャレンジ2022の物体検出トラックで2位にランクされている。
- 参考スコア(独自算出の注目度): 67.16171069696613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past few years, developing a broad, universal, and general-purpose
computer vision system has become a hot topic. A powerful universal system
would be capable of solving diverse vision tasks simultaneously without being
restricted to a specific problem or a specific data domain, which is of great
importance in practical real-world computer vision applications. This study
pushes the direction forward by concentrating on the million-scale multi-domain
universal object detection problem. The problem is not trivial due to its
complicated nature in terms of cross-dataset category label duplication, label
conflicts, and the hierarchical taxonomy handling. Moreover, what is the
resource-efficient way to utilize emerging large pre-trained vision models for
million-scale cross-dataset object detection remains an open challenge. This
paper tries to address these challenges by introducing our practices in label
handling, hierarchy-aware loss design and resource-efficient model training
with a pre-trained large model. Our method is ranked second in the object
detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our
detailed study would serve as an alternative practice paradigm for similar
problems in the community. The code is available at
https://github.com/linfeng93/Large-UniDet.
- Abstract(参考訳): ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発がホットな話題になっている。
強力なユニバーサルシステムは、特定の問題や特定のデータ領域に制限されることなく、多様なビジョンタスクを同時に解決することができる。
本研究では,百万単位の汎用オブジェクト検出問題に集中することで,その方向を推し進める。
この問題は、横断データセットのカテゴリラベルの重複、ラベルの競合、階層的な分類の扱いといった点で複雑であるため、自明ではない。
さらに、数百万スケールのクロスデータセットオブジェクト検出のために、新たな大規模事前学習ビジョンモデルを利用するためのリソース効率のよい方法は、まだ未解決の課題である。
本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングの実践を通じて,これらの課題に対処する。
本手法はロバストビジョンチャレンジ2022(rvc2022)の物体検出トラックにおいて第2位である。
私たちの詳細な研究が、コミュニティの同様の問題に対する代替の実践パラダイムになることを期待しています。
コードはhttps://github.com/linfeng93/Large-UniDetで公開されている。
関連論文リスト
- General Object Foundation Model for Images and Videos at Scale [99.2806103051613]
本稿では,画像やビデオ中の物体の位置と識別のためのオブジェクトレベルの基礎モデルであるGLEEを提案する。
GLEEは、オープンワールドシナリオにおける任意のオブジェクトの検出、セグメンテーション、トラッキング、グラウンド、識別を達成する。
画像エンコーダ,テキストエンコーダ,視覚プロンプトを用いて複数モーダル入力を処理し,様々なオブジェクト中心の下流タスクを同時に解決する。
論文 参考訳(メタデータ) (2023-12-14T17:26:00Z) - End-to-End (Instance)-Image Goal Navigation through Correspondence as an
Emergent Phenomenon [27.252343068970852]
そこで我々は,大容量双眼VTモデルを用いた新しいデュアルエンコーダを提案し,対応解が学習信号から自然に現れることを示す。
実験では、ImageNavとインスタンス-ImageNavの2つのベンチマークで、大幅な改善とSOTAパフォーマンスが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:41:17Z) - Challenges for Monocular 6D Object Pose Estimation in Robotics [15.748415939460866]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。
我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。
これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文 参考訳(メタデータ) (2023-07-22T21:36:57Z) - Open Challenges for Monocular Single-shot 6D Object Pose Estimation [15.01623452269803]
オブジェクトポーズ推定は、ロボット操作、ビンピック、拡張現実、シーン理解を可能にする非自明なタスクである。
単分子オブジェクトのポーズ推定は、高い性能のディープラーニングベースのソリューションの台頭とともに、かなりの勢いを増した。
我々は、研究者が関連する研究のアイデアを定式化し、技術の現状を効果的に進めるために、有望な研究の方向性を特定する。
論文 参考訳(メタデータ) (2023-02-23T07:26:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Person Re-identification: A Retrospective on Domain Specific Open
Challenges and Future Trends [2.4907242954727926]
人物再識別(Re-ID)は、自動化された視覚監視システムの主要な構成要素の1つである。
オーバーラップしない視野を持つマルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている。
論文 参考訳(メタデータ) (2022-02-26T11:55:57Z) - Fine-Grained Image Analysis with Deep Learning: A Survey [146.22351342315233]
きめ細かい画像解析(FGIA)は、コンピュータビジョンとパターン認識における長年の根本的な問題である。
本稿では、FGIAの分野を再定義し、FGIAの2つの基礎研究領域、細粒度画像認識と細粒度画像検索を統合することで、FGIAの分野を広げようとしている。
論文 参考訳(メタデータ) (2021-11-11T09:43:56Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Weakly Supervised Object Localization and Detection: A Survey [145.5041117184952]
オブジェクトのローカライゼーションと検出は、新しい世代のコンピュータビジョンシステムを開発する上で重要な役割を果たす。
本稿では,(1)古典的モデル,(2)既成の深層ネットワークの特徴表現を用いたアプローチ,(3)ディープラーニングのみに基づくアプローチ,(4)この分野で広く利用されている公開データセットと標準評価指標についてレビューする。
この分野における重要な課題、この分野の開発履歴、各カテゴリーの手法の利点/欠点、異なるカテゴリーの方法間の関係、弱い監督対象のローカリゼーションおよび検出方法の適用、およびこの研究分野の開発をさらに促進するための潜在的な将来の方向性について議論します。
論文 参考訳(メタデータ) (2021-04-16T06:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。