Fugu-MT 論文翻訳(概要): Million-scale Object Detection with Large Vision Model

論文の概要: Million-scale Object Detection with Large Vision Model

arxiv url: http://arxiv.org/abs/2212.09408v1
Date: Mon, 19 Dec 2022 12:40:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 17:39:50.173604
Title: Million-scale Object Detection with Large Vision Model
Title（参考訳）: 大規模視覚モデルによる何百万もの物体検出
Authors: Feng Lin, Wenze Hu, Yaowei Wang, Yonghong Tian, Guangming Lu, Fanglin Chen, Yong Xu, Xiaoyu Wang
Abstract要約: 本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングについて紹介する。本手法は,ロバスト・ビジョン・チャレンジ2022の物体検出トラックで2位にランクされている。
参考スコア（独自算出の注目度）: 67.16171069696613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Over the past few years, developing a broad, universal, and general-purpose computer vision system has become a hot topic. A powerful universal system would be capable of solving diverse vision tasks simultaneously without being restricted to a specific problem or a specific data domain, which is of great importance in practical real-world computer vision applications. This study pushes the direction forward by concentrating on the million-scale multi-domain universal object detection problem. The problem is not trivial due to its complicated nature in terms of cross-dataset category label duplication, label conflicts, and the hierarchical taxonomy handling. Moreover, what is the resource-efficient way to utilize emerging large pre-trained vision models for million-scale cross-dataset object detection remains an open challenge. This paper tries to address these challenges by introducing our practices in label handling, hierarchy-aware loss design and resource-efficient model training with a pre-trained large model. Our method is ranked second in the object detection track of Robust Vision Challenge 2022 (RVC 2022). We hope our detailed study would serve as an alternative practice paradigm for similar problems in the community. The code is available at https://github.com/linfeng93/Large-UniDet.
Abstract（参考訳）: ここ数年、広範で普遍的で汎用的なコンピュータビジョンシステムの開発がホットな話題になっている。強力なユニバーサルシステムは、特定の問題や特定のデータ領域に制限されることなく、多様なビジョンタスクを同時に解決することができる。本研究では,百万単位の汎用オブジェクト検出問題に集中することで,その方向を推し進める。この問題は、横断データセットのカテゴリラベルの重複、ラベルの競合、階層的な分類の扱いといった点で複雑であるため、自明ではない。さらに、数百万スケールのクロスデータセットオブジェクト検出のために、新たな大規模事前学習ビジョンモデルを利用するためのリソース効率のよい方法は、まだ未解決の課題である。本稿では,ラベル処理,階層性を考慮した損失設計,および事前学習された大規模モデルを用いた資源効率の高いモデルトレーニングの実践を通じて,これらの課題に対処する。本手法はロバストビジョンチャレンジ2022(rvc2022)の物体検出トラックにおいて第2位である。私たちの詳細な研究が、コミュニティの同様の問題に対する代替の実践パラダイムになることを期待しています。コードはhttps://github.com/linfeng93/Large-UniDetで公開されている。

関連論文リスト

Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
Visual Bridge: Universal Visual Perception Representations Generating [27.034175361589572]
複数のタスクにまたがる多様な視覚表現を生成できるフローマッチングに基づく普遍的な視覚認識フレームワークを提案する。提案手法は,画像パッチトークンからタスク固有の表現への共通フローマッチング問題を定式化したものである。我々のモデルはゼロショットと微調整の両方で競争性能を達成し、事前のジェネラリストやいくつかのスペシャリストモデルよりも優れています。
論文参考訳（メタデータ） (2025-11-11T06:25:30Z)
Towards Open World Detection: A Survey [0.0]
オープンワールド検出(OWD)は、視覚領域におけるクラスに依存しない、一般的に適用可能な検出モデルを統合するための包括的用語である。私たちは、基礎的なビジョンの歴史から始まり、今日の最先端の展望を構成する重要な概念、方法論、データセットをカバーします。
論文参考訳（メタデータ） (2025-08-22T16:49:52Z)
SVC 2025: the First Multimodal Deception Detection Challenge [16.070848946361696]
SVC 2025 Multimodal Deception Detection Challengeは、音声・視覚的偽装検出におけるクロスドメインの一般化を評価するために設計された新しいベンチマークである。我々は,より適応し,説明し,実践的に展開可能な偽造検知システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-08-06T06:56:39Z)
Object Detection and Tracking [0.0]
プロジェクトの目的は、オブジェクト検出のための最新の技術を統合することであり、リアルタイムのパフォーマンスで高い精度を達成することを目的としている。本研究では,ディープラーニング技術を用いて,エンドツーエンドの物体検出問題を完全に解決する。
論文参考訳（メタデータ） (2025-02-14T17:13:52Z)
Benchmarking Robust Self-Supervised Learning Across Diverse Downstream Tasks [9.207022068713867]
複数の下流タスクにまたがる自己監督型視覚エンコーダの対向ロバスト性に関する包括的実証評価を行った。我々の攻撃はエンコーダの埋め込みスペースと下流タスク出力レベルで動作する。基礎モデルの目的は一度に複数のアプリケーションに対応することであるため,より広範にエンコーダの堅牢性を高める必要性が明らかとなった。
論文参考訳（メタデータ） (2024-07-17T14:12:34Z)
V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。 Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文参考訳（メタデータ） (2024-06-17T16:58:51Z)
Learning 1D Causal Visual Representation with De-focus Attention Networks [108.72931590504406]
本稿では,1次元因果モデルを用いた画像表現の実現可能性について検討する。本稿では,学習可能な帯域通過フィルタを用いて様々な注意パターンを生成するDe-focus Attention Networksを提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文参考訳（メタデータ） (2023-07-22T21:36:57Z)
Open Challenges for Monocular Single-shot 6D Object Pose Estimation [15.01623452269803]
オブジェクトポーズ推定は、ロボット操作、ビンピック、拡張現実、シーン理解を可能にする非自明なタスクである。単分子オブジェクトのポーズ推定は、高い性能のディープラーニングベースのソリューションの台頭とともに、かなりの勢いを増した。我々は、研究者が関連する研究のアイデアを定式化し、技術の現状を効果的に進めるために、有望な研究の方向性を特定する。
論文参考訳（メタデータ） (2023-02-23T07:26:50Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文参考訳（メタデータ） (2022-08-08T08:15:34Z)
Person Re-identification: A Retrospective on Domain Specific Open Challenges and Future Trends [2.4907242954727926]
人物再識別(Re-ID)は、自動化された視覚監視システムの主要な構成要素の1つである。オーバーラップしない視野を持つマルチカメラネットワーク内の人物を自動的に識別・検索することを目的としている。
論文参考訳（メタデータ） (2022-02-26T11:55:57Z)
Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文参考訳（メタデータ） (2021-05-27T23:34:06Z)
Weakly Supervised Object Localization and Detection: A Survey [145.5041117184952]
オブジェクトのローカライゼーションと検出は、新しい世代のコンピュータビジョンシステムを開発する上で重要な役割を果たす。本稿では,(1)古典的モデル,(2)既成の深層ネットワークの特徴表現を用いたアプローチ,(3)ディープラーニングのみに基づくアプローチ,(4)この分野で広く利用されている公開データセットと標準評価指標についてレビューする。この分野における重要な課題、この分野の開発履歴、各カテゴリーの手法の利点/欠点、異なるカテゴリーの方法間の関係、弱い監督対象のローカリゼーションおよび検出方法の適用、およびこの研究分野の開発をさらに促進するための潜在的な将来の方向性について議論します。
論文参考訳（メタデータ） (2021-04-16T06:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。