論文の概要: Channel-wise Motion Features for Efficient Motion Segmentation
- arxiv url: http://arxiv.org/abs/2507.13082v1
- Date: Thu, 17 Jul 2025 12:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.498072
- Title: Channel-wise Motion Features for Efficient Motion Segmentation
- Title(参考訳): 効率的な動き分割のためのチャネルワイズ動作特性
- Authors: Riku Inoue, Masamitsu Tsuchiya, Yuji Yasui,
- Abstract要約: 本稿では,コストボリュームに基づく新しい動き特徴表現,チャネルワイズ動作特徴を提案する。
提案手法は,VCAS-MotionデータセットのKITTIデータセットとCityscapesにおける最先端モデルの約4倍のFPSを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For safety-critical robotics applications such as autonomous driving, it is important to detect all required objects accurately in real-time. Motion segmentation offers a solution by identifying dynamic objects from the scene in a class-agnostic manner. Recently, various motion segmentation models have been proposed, most of which jointly use subnetworks to estimate Depth, Pose, Optical Flow, and Scene Flow. As a result, the overall computational cost of the model increases, hindering real-time performance. In this paper, we propose a novel cost-volume-based motion feature representation, Channel-wise Motion Features. By extracting depth features of each instance in the feature map and capturing the scene's 3D motion information, it offers enhanced efficiency. The only subnetwork used to build Channel-wise Motion Features is the Pose Network, and no others are required. Our method not only achieves about 4 times the FPS of state-of-the-art models in the KITTI Dataset and Cityscapes of the VCAS-Motion Dataset, but also demonstrates equivalent accuracy while reducing the parameters to about 25$\%$.
- Abstract(参考訳): 自律運転のような安全クリティカルなロボティクスアプリケーションにとって、必要な全ての物体をリアルタイムで正確に検出することが重要である。
モーションセグメンテーションは、クラスに依存しない方法でシーンから動的オブジェクトを識別することでソリューションを提供する。
近年,様々な動作セグメンテーションモデルが提案されており,そのほとんどはサブネットを用いて深度,ポス,光学フロー,シーンフローを推定している。
その結果、モデル全体の計算コストが増大し、リアルタイムのパフォーマンスが損なわれる。
本稿では,コストボリュームに基づく新しい動作特徴表現であるチャネルワイド動作特徴を提案する。
特徴マップ内の各インスタンスの深度特徴を抽出し、シーンの3Dモーション情報をキャプチャすることで、効率を向上する。
Channel-wise Motion Features を構築するために使用される唯一のサブネットワークは Pose Network であり、その他は不要である。
提案手法は,VCAS-Motion DatasetのKITTIデータセットおよびCityscapesにおける最先端モデルのFPSの約4倍を達成するだけでなく,パラメータを約25$\%$に下げた上で,等価な精度を示す。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Motion Segmentation for Neuromorphic Aerial Surveillance [42.04157319642197]
イベントカメラは優れた時間分解能、優れたダイナミックレンジ、最小限の電力要件を提供する。
固定間隔で冗長な情報をキャプチャする従来のフレームベースのセンサーとは異なり、イベントカメラは画素レベルの明るさ変化を非同期に記録する。
本稿では,イベントデータと光フロー情報の両方に自己監督型視覚変換器を利用する動き分割手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:36:13Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Treating Motion as Option to Reduce Motion Dependency in Unsupervised
Video Object Segmentation [5.231219025536678]
教師なしビデオオブジェクトセグメンテーション(VOS)は、画素レベルでの動画シーケンスにおいて最も顕著なオブジェクトを検出することを目的としている。
最先端のほとんどの手法では、光学フローマップから得られる動きの手がかりと外観の手がかりを活用して、背景に比べて顕著な物体が典型的に特徴的な動きを持つという特性を利用する。
論文 参考訳(メタデータ) (2022-09-04T18:05:52Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。