論文の概要: Instance-Level Moving Object Segmentation from a Single Image with Events
- arxiv url: http://arxiv.org/abs/2502.12975v1
- Date: Tue, 18 Feb 2025 15:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:54.533328
- Title: Instance-Level Moving Object Segmentation from a Single Image with Events
- Title(参考訳): イベント付き単一画像からのインスタンスレベル移動オブジェクトセグメンテーション
- Authors: Zhexiong Wan, Bin Fan, Le Hui, Yuchao Dai, Gim Hee Lee,
- Abstract要約: 移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 84.12761042512452
- License:
- Abstract: Moving object segmentation plays a crucial role in understanding dynamic scenes involving multiple moving objects, while the difficulties lie in taking into account both spatial texture structures and temporal motion cues. Existing methods based on video frames encounter difficulties in distinguishing whether pixel displacements of an object are caused by camera motion or object motion due to the complexities of accurate image-based motion modeling. Recent advances exploit the motion sensitivity of novel event cameras to counter conventional images' inadequate motion modeling capabilities, but instead lead to challenges in segmenting pixel-level object masks due to the lack of dense texture structures in events. To address these two limitations imposed by unimodal settings, we propose the first instance-level moving object segmentation framework that integrates complementary texture and motion cues. Our model incorporates implicit cross-modal masked attention augmentation, explicit contrastive feature learning, and flow-guided motion enhancement to exploit dense texture information from a single image and rich motion information from events, respectively. By leveraging the augmented texture and motion features, we separate mask segmentation from motion classification to handle varying numbers of independently moving objects. Through extensive evaluations on multiple datasets, as well as ablation experiments with different input settings and real-time efficiency analysis of the proposed framework, we believe that our first attempt to incorporate image and event data for practical deployment can provide new insights for future work in event-based motion related works. The source code with model training and pre-trained weights is released at https://npucvr.github.io/EvInsMOS
- Abstract(参考訳): 移動物体のセグメンテーションは、複数の移動物体を含む動的なシーンを理解する上で重要な役割を担っている。
映像フレームに基づく既存の手法では, カメラの動きや物体の動きによって物体の画素変位が生じるかどうかを, 正確な画像ベース・モーション・モデリングの複雑さにより判別することが困難である。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用するが、イベントに密集したテクスチャ構造が欠如していることから、ピクセルレベルのオブジェクトマスクのセグメンテーションの課題に繋がる。
本研究では, この2つの制約に対処するために, 相補的なテクスチャと動作手段を統合した最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
本モデルでは,1つの画像から密集したテクスチャ情報とイベントからのリッチなモーション情報を利用するために,暗黙のクロスモーダルマスクによる注意増強,明示的なコントラスト的特徴学習,フロー誘導運動強調を取り入れた。
拡張テクスチャと運動特徴を活用して、運動分類からマスクセグメンテーションを分離し、独立に動く物体の様々な数を扱う。
複数のデータセットに対する広範な評価や、異なる入力設定によるアブレーション実験、提案フレームワークのリアルタイム効率分析などを通じて、我々は、画像データとイベントデータを実用的なデプロイメントに組み込む最初の試みは、イベントベースのモーション関連作業における今後の作業に新たな洞察を与えることができると信じている。
モデルトレーニングと事前トレーニングされた重み付きソースコードはhttps://npucvr.github.io/EvInsMOSで公開されている。
関連論文リスト
- Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - Motion Segmentation from a Moving Monocular Camera [3.115818438802931]
我々は、点軌跡法と光フロー法という、単眼運動分割手法の2つの一般的な分岐を生かしている。
我々は異なるシーン構造で様々な複雑な物体の動きを同時にモデル化することができる。
提案手法は,KT3DMoSegデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-24T22:59:05Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Event-based Motion Segmentation by Cascaded Two-Level Multi-Model
Fitting [44.97191206895915]
独立に動く物体を単眼イベントカメラで識別するためのケースド2レベル多モデルフィッティング法を提案する。
動作パターンの異なる実世界のシーンにおいて,本手法の有効性と汎用性を示す実験を行った。
論文 参考訳(メタデータ) (2021-11-05T12:59:41Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。