論文の概要: A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space
- arxiv url: http://arxiv.org/abs/2412.14680v2
- Date: Wed, 25 Dec 2024 12:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:59.714439
- Title: A Light-Weight Framework for Open-Set Object Detection with Decoupled Feature Alignment in Joint Space
- Title(参考訳): 連接空間における非結合的特徴アライメントを用いたオープンセット物体検出のための軽量フレームワーク
- Authors: Yonghao He, Hu Su, Haiyong Yu, Cong Yang, Wei Sui, Cong Wang, Song Liu,
- Abstract要約: オープンセット物体検出(OSOD)は、非構造環境におけるロボット操作に非常に望ましい。
既存のOSOD法は、計算負荷と複雑な展開のために、ロボットアプリケーションの要求を満たすことができないことが多い。
本稿では,ロボットシステムにおけるリアルタイムOSODタスクを支援するために,Decoupled OSOD(DOSOD)と呼ばれる軽量フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.194119991934516
- License:
- Abstract: Open-set object detection (OSOD) is highly desirable for robotic manipulation in unstructured environments. However, existing OSOD methods often fail to meet the requirements of robotic applications due to their high computational burden and complex deployment. To address this issue, this paper proposes a light-weight framework called Decoupled OSOD (DOSOD), which is a practical and highly efficient solution to support real-time OSOD tasks in robotic systems. Specifically, DOSOD builds upon the YOLO-World pipeline by integrating a vision-language model (VLM) with a detector. A Multilayer Perceptron (MLP) adaptor is developed to transform text embeddings extracted by the VLM into a joint space, within which the detector learns the region representations of class-agnostic proposals. Cross-modality features are directly aligned in the joint space, avoiding the complex feature interactions and thereby improving computational efficiency. DOSOD operates like a traditional closed-set detector during the testing phase, effectively bridging the gap between closed-set and open-set detection. Compared to the baseline YOLO-World, the proposed DOSOD significantly enhances real-time performance while maintaining comparable accuracy. The slight DOSOD-S model achieves a Fixed AP of $26.7\%$, compared to $26.2\%$ for YOLO-World-v1-S and $22.7\%$ for YOLO-World-v2-S, using similar backbones on the LVIS minival dataset. Meanwhile, the FPS of DOSOD-S is $57.1\%$ higher than YOLO-World-v1-S and $29.6\%$ higher than YOLO-World-v2-S. Meanwhile, we demonstrate that the DOSOD model facilitates the deployment of edge devices. The codes and models are publicly available at https://github.com/D-Robotics-AI-Lab/DOSOD.
- Abstract(参考訳): オープンセット物体検出(OSOD)は、非構造環境におけるロボット操作に非常に望ましい。
しかし、既存のOSOD法は計算負荷と複雑な展開のためにロボットアプリケーションの要求を満たすことができないことが多い。
そこで本研究では,ロボットシステムにおけるリアルタイムOSODタスクを支援するための,実用的で高効率なソリューションとして,Decoupled OSOD (DOSOD) という軽量フレームワークを提案する。
具体的には、DOSODは、視覚言語モデル(VLM)と検出器を統合することで、YOLO-Worldパイプライン上に構築される。
マルチレイヤパーセプトロン(MLP)アダプタは、VLMによって抽出されたテキスト埋め込みを、検出者がクラスに依存しない提案の領域表現を学習する結合空間に変換するために開発された。
クロスモダリティ機能は関節空間に直列し、複雑な特徴相互作用を回避し、計算効率を向上させる。
DOSODはテストフェーズ中に従来のクローズドセット検出器のように動作し、クローズドセットとオープンセット検出のギャップを効果的に埋める。
ベースラインのYOLO-Worldと比較して、提案するDOSODは、同等の精度を維持しながら、リアルタイムのパフォーマンスを大幅に向上させる。
DOSOD-S モデルは YOLO-World-v1-S の26.2\% と YOLO-World-v2-S の22.7\% に対して、LVIS のミニバルデータセット上の同様のバックボーンを使用して、固定AP の26.7\% を達成している。
一方、DOSOD-SのFPSは、YOLO-World-v1-Sより57.1\%高いが、YOLO-World-v2-Sより29.6\%高い。
一方、DOSODモデルがエッジデバイスのデプロイを容易にすることを示す。
コードとモデルはhttps://github.com/D-Robotics-AI-Lab/DOSODで公開されている。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - YOLO-UniOW: Efficient Universal Open-World Object Detection [63.71512991320627]
オープン語彙とオープンワールドオブジェクト検出タスクを統合する新しいパラダイムであるUniversal Open-World Object Detection (Uni-OWD)を紹介する。
YOLO-UniOWはAdaptive Decision Learningを導入し、計算コストのかかるクロスモダリティ融合をCLIP潜伏空間の軽量アライメントに置き換える。
実験では、YOLO-UniOWが34.6 APと30.0 APr、推論速度は69.6 FPSを達成している。
論文 参考訳(メタデータ) (2024-12-30T01:34:14Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - MODIPHY: Multimodal Obscured Detection for IoT using PHantom Convolution-Enabled Faster YOLO [10.183459286746196]
YOLO Phantomは、史上最小のYOLOモデルのひとつです。
YOLO Phantomは最新のYOLOv8nモデルと同等の精度を実現し、パラメータとモデルサイズを同時に削減する。
実際の有効性は、高度な低照度カメラとRGBカメラを備えたIoTプラットフォーム上で実証され、AWSベースの通知エンドポイントにシームレスに接続される。
論文 参考訳(メタデータ) (2024-02-12T18:56:53Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - YOLO-Drone:Airborne real-time detection of dense small objects from
high-altitude perspective [8.864582442699023]
リアルタイム物体検出アルゴリズム(YOLO-Drone)を提案し,2つの新しいUAVプラットフォームと特定の光源に適用した。
YOLO-Droneは53 FPSで、最大mAPは34.04%である。
特に、YOLO-Droneはシリコンベースの金のLEDの下で高性能で、mAPは87.71%である。
論文 参考訳(メタデータ) (2023-04-14T05:21:47Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。