論文の概要: On Moving Object Segmentation from Monocular Video with Transformers
- arxiv url: http://arxiv.org/abs/2411.19141v1
- Date: Thu, 28 Nov 2024 13:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:14.782769
- Title: On Moving Object Segmentation from Monocular Video with Transformers
- Title(参考訳): 変圧器を用いたモノクロ映像からの移動物体のセグメンテーションについて
- Authors: Christian Homeyer, Christoph Schnörr,
- Abstract要約: モノクラーモーションセグメンテーションのための新しい融合アーキテクチャ M3Former を提案する。
この問題に対する2次元および3次元の動作表現の解析とセグメンテーション性能の重要性について述べる。
- 参考スコア(独自算出の注目度): 3.683202928838613
- License:
- Abstract: Moving object detection and segmentation from a single moving camera is a challenging task, requiring an understanding of recognition, motion and 3D geometry. Combining both recognition and reconstruction boils down to a fusion problem, where appearance and motion features need to be combined for classification and segmentation. In this paper, we present a novel fusion architecture for monocular motion segmentation - M3Former, which leverages the strong performance of transformers for segmentation and multi-modal fusion. As reconstructing motion from monocular video is ill-posed, we systematically analyze different 2D and 3D motion representations for this problem and their importance for segmentation performance. Finally, we analyze the effect of training data and show that diverse datasets are required to achieve SotA performance on Kitti and Davis.
- Abstract(参考訳): 物体検出と1台の移動カメラからのセグメンテーションの移動は、認識、動き、三次元幾何学の理解を必要とする難しい作業である。
認識と再構成の両方を組み合わせることで、分類とセグメンテーションのために外観と運動の特徴を組み合わせなければならない融合問題に陥る。
本稿では,モノクロモーションセグメンテーションのための新しい融合アーキテクチャであるM3Formerについて述べる。
モノクロ映像からの動作の再構築が不十分であるため,この問題に対する異なる2次元および3次元の動作表現とそのセグメンテーション性能の重要性を体系的に解析する。
最後に、トレーニングデータの効果を分析し、KittiとDavisでSotAのパフォーマンスを達成するために多様なデータセットが必要であることを示す。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Motion Segmentation from a Moving Monocular Camera [3.115818438802931]
我々は、点軌跡法と光フロー法という、単眼運動分割手法の2つの一般的な分岐を生かしている。
我々は異なるシーン構造で様々な複雑な物体の動きを同時にモデル化することができる。
提案手法は,KT3DMoSegデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-24T22:59:05Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - MultiBodySync: Multi-Body Segmentation and Motion Estimation via 3D Scan
Synchronization [61.015704878681795]
本稿では,3次元点雲のための多体運動分節と剛性登録フレームワークを提案する。
このマルチスキャンマルチボディ設定によって生じる2つの非自明な課題は、である。
複数の入力ポイントクラウド間の対応性とセグメンテーション一貫性の保証
新規な対象カテゴリーに適用可能なロバストな運動に基づく剛体セグメンテーションを得る。
論文 参考訳(メタデータ) (2021-01-17T06:36:28Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation [93.22300146395536]
本研究では,映像中のキャモフラージュされた物体を検出する計算アーキテクチャを設計し,特に物体のセグメンテーションを行うために動作情報を活用する。
最初の大規模な移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。
提案手法の有効性を実証し,動作のみに依存して,DAVIS2016上の教師なしセグメンテーションプロトコル上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-11-23T18:59:08Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。