論文の概要: STORM: Segment, Track, and Object Re-Localization from a Single 3D Model
- arxiv url: http://arxiv.org/abs/2511.09771v1
- Date: Fri, 14 Nov 2025 01:08:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.476037
- Title: STORM: Segment, Track, and Object Re-Localization from a Single 3D Model
- Title(参考訳): STORM: 単一3次元モデルからのセグメント、トラック、オブジェクト再ローカライゼーション
- Authors: Yu Deng, Teng Cao, Hikaru Shindo, Jiahong Xue, Quentin Delfosse, Kristian Kersting,
- Abstract要約: STORMはオープンソースの堅牢なリアルタイム6Dポーズ推定システムで、手動のアノテーションを必要としない。
STORMは、視覚監督型理解と自己言語機能マッチングを組み合わせた、新しい3段階パイプラインを採用している。
- 参考スコア(独自算出の注目度): 35.39496117133769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate 6D pose estimation and tracking are fundamental capabilities for physical AI systems such as robots. However, existing approaches typically rely on a manually annotated segmentation mask of the target in the first frame, which is labor-intensive and leads to reduced performance when faced with occlusions or rapid movement. To address these limi- tations, we propose STORM (Segment, Track, and Object Re-localization from a single 3D Model), an open-source robust real-time 6D pose estimation system that requires no manual annotation. STORM employs a novel three-stage pipeline combining vision-language understanding with self-supervised feature matching: contextual object descriptions guide localization, self-cross-attention mechanisms identify candidate regions, and a segmentation model produces precise masks for accurate pose estimation. Another key innovation is our automatic re-registration mechanism that detects tracking failures through feature similarity monitoring and recovers from severe occlusions or rapid motion. STORM achieves state-of-the-art accuracy on challenging industrial datasets featuring multi-object occlusions, high-speed motion, and varying illumination, while operating at real-time speeds without additional training. This annotation-free approach significantly reduces deployment overhead, providing a practical solution for modern applications, such as flexible manufacturing and intelligent quality control.
- Abstract(参考訳): 正確な6Dポーズ推定とトラッキングは、ロボットのような物理的なAIシステムの基本機能である。
しかし、既存のアプローチは、通常、第1フレームの目標を手動でアノテートしたセグメンテーションマスクに依存しており、これは労働集約的であり、閉塞や急激な動きに直面した場合のパフォーマンスが低下する。
そこで我々はSTORM(Segment, Track, Object Re-localization from a single 3D Model)を提案する。
STORMは、視覚言語理解と自己教師付き特徴マッチングを組み合わせた、新しい3段階のパイプラインを採用している: コンテキストオブジェクト記述は、ローカライゼーションをガイドし、自己横断的なメカニズムは候補領域を識別し、セグメンテーションモデルは正確なポーズ推定のための正確なマスクを生成する。
もうひとつの重要な革新は、機能類似性監視を通じて障害の追跡を検知し、重度の閉塞や急激な動きから回復する自動再登録機構です。
STORMは、複数オブジェクトのオクルージョン、高速な動き、様々な照明を含む産業データセットに対する最先端の精度を実現し、追加のトレーニングなしでリアルタイムに動作させる。
このアノテーションのないアプローチは、デプロイメントのオーバーヘッドを大幅に減らし、フレキシブルな製造やインテリジェントな品質管理といったモダンなアプリケーションに実用的なソリューションを提供する。
関連論文リスト
- Color-Pair Guided Robust Zero-Shot 6D Pose Estimation and Tracking of Cluttered Objects on Edge Devices [4.261261166281339]
本稿では,エッジデバイス上での効率的な実行を目的とした統合フレームワークを提案する。
当社のアプローチの鍵は、ライトと不変なカラーペアの特徴表現の共有です。
最初の見積のために、この機能はライブRGB-Dビューとオブジェクトの3Dメッシュの間の堅牢な登録を容易にする。
追跡に関しては、同じ特徴論理が時間的対応を検証し、軽量モデルが物体の動きを確実に回帰させることができる。
論文 参考訳(メタデータ) (2025-09-28T05:07:49Z) - Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。
本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。
スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文 参考訳(メタデータ) (2025-09-16T17:17:03Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - TrackAgent: 6D Object Tracking via Reinforcement Learning [24.621588217873395]
我々は、オブジェクト追跡を強化されたポイントクラウド(深部のみ)アライメントタスクに単純化することを提案する。
これにより、スクラッチからスクラッチからスパース3Dポイントクラウドをトレーニングすることができます。
また、RLエージェントの不確かさとレンダリングベースのマスク伝搬が効果的な再起動トリガであることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:03:00Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Time-to-Label: Temporal Consistency for Self-Supervised Monocular 3D
Object Detection [46.077668660248534]
オブジェクトのポーズのレベルにおける時間的一貫性は、重要な監視信号を提供する、と我々は主張する。
具体的には、この一貫性とレンダリング・アンド・コンパレート・ロスを利用する自己教師付き損失を提案する。
我々は,実データから生成した擬似ラベルを用いて,合成訓練されたモノクル3次元物体検出モデルを微調整する。
論文 参考訳(メタデータ) (2022-03-04T08:55:49Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。