論文の概要: GMOS: Grounding Moving Object Segmentation in 3D Space and Time
- arxiv url: http://arxiv.org/abs/2605.30352v1
- Date: Thu, 28 May 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.764418
- Title: GMOS: Grounding Moving Object Segmentation in 3D Space and Time
- Title(参考訳): GMOS:3D空間と時間における移動物体のセグメンテーション
- Authors: Junyu Xie, Tengda Han, Weidi Xie, Andrew Zisserman,
- Abstract要約: 移動オブジェクト(MOS)は、カメラから独立して動くオブジェクトを発見し、セグメンテーションし、追跡することを目的としている。
本稿では,RGB動画を直接操作し,時間的に細かな複数の移動物体の分割を3D認識するフレームワークGMOSを提案する。
この体制におけるトレーニングと評価を支援するため、オブジェクトごとの時間的動作アノテーションを備えた2,210の現実世界ビデオのデータセットであるGMOS-2Kをキュレートする。
- 参考スコア(独自算出の注目度): 95.3020315930043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moving Object Segmentation (MOS) aims to discover, segment, and track objects that move independently of the camera. Current MOS methods, however, exhibit two fundamental limitations: they rely on pre-computed 2D auxiliary modalities such as optical flow or point trajectories that lack 3D geometric information, and they treat motion as a sequence-level attribute, overlooking the instantaneous motion state of each object. We address both by grounding MOS in 3D space and time, and propose GMOS, a framework that operates directly on RGB video to produce 3D-aware, temporally fine-grained segmentation of multiple moving objects, alongside a foreground--background variant GMOS-S for faster deployment. To support training and evaluation in this regime, we curate GMOS-2K, a dataset of 2,210 real-world videos with per-object temporal motion annotations drawn from five established Video Object Segmentation (VOS) benchmarks, and formalise MOS-I ("I" for instantaneous), a temporally fine-grained evaluation protocol with three complementary metrics. GMOS achieves state-of-the-art results across MOS, MOS-I, and Unsupervised VOS benchmarks, while running significantly faster than prior multi-object MOS methods and supporting online inference for streaming deployment.
- Abstract(参考訳): 移動オブジェクトセグメンテーション(MOS)は、カメラから独立して動くオブジェクトを発見し、セグメンテーションし、追跡することを目的としている。
しかし、現在のMOS法は、光学的フローや3次元幾何学的情報を持たない点軌跡のような事前計算された2次元補助変調に依存しており、各物体の瞬間的な運動状態を見渡して、運動をシーケンスレベルの属性として扱う。
我々は,MOSを3次元空間と時間の両方でグラウンド化することで,GMOSを提案する。GMOSはRGBビデオ上で直接動作して,複数の移動物体の時間的にきめ細かなセグメンテーションを生成する。
この体制におけるトレーニングと評価を支援するため,既存の5つのビデオオブジェクトセグメンテーション(VOS)ベンチマークから得られたオブジェクトごとの時間的動作アノテーションを備えた2,210個の実世界のビデオのデータセットであるGMOS-2Kをキュレートし,3つの相補的な指標を持つ時間的微細な評価プロトコルであるMOS-I(I)を定式化する。
GMOSは、MOS、MOS-I、Unsupervised VOSベンチマークにまたがる最先端の結果を達成すると同時に、従来のマルチオブジェクトのMOSメソッドよりも大幅に高速に動作し、ストリーミングデプロイメントのオンライン推論をサポートする。
関連論文リスト
- MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes [131.45528437023643]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオ全体を通して特定のターゲットオブジェクトをセグメンテーションすることを目的としている。
このギャップを埋めるために、複雑なシーンでのVOS研究を促進するために、coMplex video Object SEgmentationデータセットが導入された。
このMOSEv2は,実環境下でのVOS手法をさらに発展させるために設計された,はるかに難しいデータセットである。
論文 参考訳(メタデータ) (2025-08-07T17:59:27Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - CV-MOS: A Cross-View Model for Motion Segmentation [13.378850442525945]
本稿では,移動物体セグメンテーションのためのクロスビューモデルCV-MOSを紹介する。
BEV と RV の残差マップから動きを捉えることで空間時空間情報を分離する。
提案手法は,SemanticKittiデータセットの検証とテストセットにおいて,IoU(%)スコアが77.5%,79.2%に達した。
論文 参考訳(メタデータ) (2024-08-25T09:39:26Z) - MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model [15.418115686945056]
LiDARベースの移動物体(MOS)は、前回のスキャンからの動き情報を用いて、現在のスキャンの点雲における移動物体の特定と分割を目的としている。
MambaMOSと呼ばれる動き認識状態空間モデルを用いた新しいLiDARベースの3D移動物体を提案する。
論文 参考訳(メタデータ) (2024-04-19T11:17:35Z) - MF-MOS: A Motion-Focused Model for Moving Object Segmentation [10.533968185642415]
移動オブジェクトセグメンテーション(MOS)は、トラフィック参加者を検出する信頼性の高いソリューションを提供する。
これまでの方法では、レンジ画像から直接動きの特徴をキャプチャする。
We propose MF-MOS, a novel motion- focused model with a dual-branch structure for LiDAR moving object segmentation。
論文 参考訳(メタデータ) (2024-01-30T13:55:56Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。