論文の概要: Locate n' Rotate: Two-stage Openable Part Detection with Foundation Model Priors
- arxiv url: http://arxiv.org/abs/2412.13173v1
- Date: Tue, 17 Dec 2024 18:52:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:21.528314
- Title: Locate n' Rotate: Two-stage Openable Part Detection with Foundation Model Priors
- Title(参考訳): Locate n' Rotate: ファンデーションモデルによる2段階のオープン部品検出
- Authors: Siqi Li, Xiaoxue Chen, Haoyu Cheng, Guyue Zhou, Hao Zhao, Guanzhong Tian,
- Abstract要約: 我々はMOPD (Multi-Feature Openable Part Detection) というトランスフォーマーベースのオープン部分検出フレームワークを提案する。
既存の手法と比較して,提案手法は検出と動きパラメータ予測の両方において優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.888294850224554
- License:
- Abstract: Detecting the openable parts of articulated objects is crucial for downstream applications in intelligent robotics, such as pulling a drawer. This task poses a multitasking challenge due to the necessity of understanding object categories and motion. Most existing methods are either category-specific or trained on specific datasets, lacking generalization to unseen environments and objects. In this paper, we propose a Transformer-based Openable Part Detection (OPD) framework named Multi-feature Openable Part Detection (MOPD) that incorporates perceptual grouping and geometric priors, outperforming previous methods in performance. In the first stage of the framework, we introduce a perceptual grouping feature model that provides perceptual grouping feature priors for openable part detection, enhancing detection results through a cross-attention mechanism. In the second stage, a geometric understanding feature model offers geometric feature priors for predicting motion parameters. Compared to existing methods, our proposed approach shows better performance in both detection and motion parameter prediction. Codes and models are publicly available at https://github.com/lisiqi-zju/MOPD
- Abstract(参考訳): 物体の開口部を検出することは、引き出しを引くようなインテリジェントなロボット工学における下流の応用に不可欠である。
このタスクは、対象のカテゴリや動きを理解する必要があるため、マルチタスクの課題となる。
既存のほとんどのメソッドは、カテゴリ固有のか、特定のデータセットでトレーニングされており、目に見えない環境やオブジェクトへの一般化が欠如している。
本稿では,多機能なオープン部分検出(MOPD)と呼ばれるトランスフォーマーベースのオープン部分検出(OPD)フレームワークを提案する。
フレームワークの第1段階では、開口部検出のための知覚的グループ化機能プリエントを提供する知覚的グループ化機能モデルを導入し、クロスアテンション機構による検出結果を向上する。
第2段階では、幾何学的理解特徴モデルは、運動パラメータを予測するための幾何学的特徴事前を提供する。
既存の手法と比較して,提案手法は検出と動きパラメータ予測の両方において優れた性能を示す。
コードとモデルはhttps://github.com/lisiqi-zju/MOPDで公開されている。
関連論文リスト
- Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Exploring Robust Features for Few-Shot Object Detection in Satellite
Imagery [17.156864650143678]
従来の2段階アーキテクチャに基づく数発の物体検出器を開発した。
大規模な事前訓練モデルを使用して、クラス参照の埋め込みやプロトタイプを構築する。
課題と稀なオブジェクトを含む2つのリモートセンシングデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-03-08T15:20:27Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Rethinking the Detection Head Configuration for Traffic Object Detection [11.526701794026641]
本稿では,検出ヘッドとオブジェクト分布のマッチングに基づいて,軽量なトラフィックオブジェクト検出ネットワークを提案する。
提案したモデルでは,BDD100Kデータセットと提案したETFOD-v2データセットの他のモデルよりも,より競争力のあるパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-08T02:23:57Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Attention-based Joint Detection of Object and Semantic Part [4.389917490809522]
我々のモデルは2つのFaster-RCNNモデルに基づいて作成され、それらの特徴を共有して両方の表現を拡張します。
PASCAL-Part 2010データセットの実験では、関節検出は物体検出と部分検出の両方を同時に改善できることが示された。
論文 参考訳(メタデータ) (2020-07-05T18:54:10Z) - Condensing Two-stage Detection with Automatic Object Key Part Discovery [87.1034745775229]
2段階の物体検出器は通常、高い精度を達成するために、検出ヘッドのために過度に大きなモデルを必要とする。
そこで本研究では,2段階検出ヘッドのモデルパラメータを,対象キー部分に集中させることで縮合・縮小できることを示す。
提案手法は、一般的な2段検出ヘッドのモデルパラメータの約50%を放棄しながら、元の性能を一貫して維持する。
論文 参考訳(メタデータ) (2020-06-10T01:20:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。