論文の概要: A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space
- arxiv url: http://arxiv.org/abs/2412.14680v1
- Date: Thu, 19 Dec 2024 09:32:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:32:39.382443
- Title: A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space
- Title(参考訳): 連接空間における非結合的特徴アライメントを用いたオープンセット物体検出のための軽量フレームワーク
- Authors: Yonghao He, Hu Su, Haiyong Yu, Cong Yang, Wei Sui, Cong Wang, Song Liu,
- Abstract要約: オープンセット物体検出(OSOD)は、非構造環境におけるロボット操作に非常に望ましい。
既存のOSOD法は、計算負荷と複雑な展開のために、ロボットアプリケーションの要求を満たすことができないことが多い。
本稿では,ロボットシステムにおけるリアルタイムOSODタスクを支援するために,Decoupled OSOD(DOSOD)と呼ばれる軽量フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.194119991934516
- License:
- Abstract: Open-set object detection (OSOD) is highly desirable for robotic manipulation in unstructured environments. However, existing OSOD methods often fail to meet the requirements of robotic applications due to their high computational burden and complex deployment. To address this issue, this paper proposes a light-weight framework called Decoupled OSOD (DOSOD), which is a practical and highly efficient solution to support real-time OSOD tasks in robotic systems. Specifically, DOSOD builds upon the YOLO-World pipeline by integrating a vision-language model (VLM) with a detector. A Multilayer Perceptron (MLP) adaptor is developed to transform text embeddings extracted by the VLM into a joint space, within which the detector learns the region representations of class-agnostic proposals. Cross-modality features are directly aligned in the joint space, avoiding the complex feature interactions and thereby improving computational efficiency. DOSOD operates like a traditional closed-set detector during the testing phase, effectively bridging the gap between closed-set and open-set detection. Compared to the baseline YOLO-World, the proposed DOSOD significantly enhances real-time performance while maintaining comparable accuracy. The slight DOSOD-S model achieves a Fixed AP of $26.7\%$, compared to $26.2\%$ for YOLO-World-v1-S and $22.7\%$ for YOLO-World-v2-S, using similar backbones on the LVIS minival dataset. Meanwhile, the FPS of DOSOD-S is $57.1\%$ higher than YOLO-World-v1-S and $29.6\%$ higher than YOLO-World-v2-S. Meanwhile, we demonstrate that the DOSOD model facilitates the deployment of edge devices. The codes and models are publicly available at https://github.com/D-Robotics-AI-Lab/DOSOD.
- Abstract(参考訳): オープンセット物体検出(OSOD)は、非構造環境におけるロボット操作に非常に望ましい。
しかし、既存のOSOD法は計算負荷と複雑な展開のためにロボットアプリケーションの要求を満たすことができないことが多い。
そこで本研究では,ロボットシステムにおけるリアルタイムOSODタスクを支援するための,実用的で高効率なソリューションとして,Decoupled OSOD (DOSOD) という軽量フレームワークを提案する。
具体的には、DOSODは、視覚言語モデル(VLM)と検出器を統合することで、YOLO-Worldパイプライン上に構築される。
マルチレイヤパーセプトロン(MLP)アダプタは、VLMによって抽出されたテキスト埋め込みを、検出者がクラスに依存しない提案の領域表現を学習する結合空間に変換するために開発された。
クロスモダリティ機能は関節空間に直列し、複雑な特徴相互作用を回避し、計算効率を向上させる。
DOSODはテストフェーズ中に従来のクローズドセット検出器のように動作し、クローズドセットとオープンセット検出のギャップを効果的に埋める。
ベースラインのYOLO-Worldと比較して、提案するDOSODは、同等の精度を維持しながら、リアルタイムのパフォーマンスを大幅に向上させる。
DOSOD-S モデルは YOLO-World-v1-S の26.2\% と YOLO-World-v2-S の22.7\% に対して、LVIS のミニバルデータセット上の同様のバックボーンを使用して、固定AP の26.7\% を達成している。
一方、DOSOD-SのFPSは、YOLO-World-v1-Sより57.1\%高いが、YOLO-World-v2-Sより29.6\%高い。
一方、DOSODモデルがエッジデバイスのデプロイを容易にすることを示す。
コードとモデルはhttps://github.com/D-Robotics-AI-Lab/DOSODで公開されている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - YOLO-Drone:Airborne real-time detection of dense small objects from
high-altitude perspective [8.864582442699023]
リアルタイム物体検出アルゴリズム(YOLO-Drone)を提案し,2つの新しいUAVプラットフォームと特定の光源に適用した。
YOLO-Droneは53 FPSで、最大mAPは34.04%である。
特に、YOLO-Droneはシリコンベースの金のLEDの下で高性能で、mAPは87.71%である。
論文 参考訳(メタデータ) (2023-04-14T05:21:47Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。