論文の概要: SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2503.14837v1
- Date: Wed, 19 Mar 2025 02:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:23.908422
- Title: SemanticFlow: A Self-Supervised Framework for Joint Scene Flow Prediction and Instance Segmentation in Dynamic Environments
- Title(参考訳): SemanticFlow: 動的環境における共同シーンフロー予測とインスタンスセグメンテーションのための自己監督型フレームワーク
- Authors: Yinqi Chen, Meiying Zhang, Qi Hao, Guang Zhou,
- Abstract要約: 本稿では,全時間点雲のシーンフローとインスタンスセグメンテーションを同時に予測するマルチタスクフレームワークを提案する。
1)静的な背景と動的オブジェクトの最初の粗いセグメンテーションを用いて、共有特徴処理モジュールを介して動きと意味情報を精製するためのコンテキスト情報を提供するマルチタスクスキームの開発,2)シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発,そして,交通シーン内の静的および動的オブジェクトの空間的および時間的一貫性を確保することを支援すること,3)粗い学習スキームの開発。
- 参考スコア(独自算出の注目度): 10.303368447554591
- License:
- Abstract: Accurate perception of dynamic traffic scenes is crucial for high-level autonomous driving systems, requiring robust object motion estimation and instance segmentation. However, traditional methods often treat them as separate tasks, leading to suboptimal performance, spatio-temporal inconsistencies, and inefficiency in complex scenarios due to the absence of information sharing. This paper proposes a multi-task SemanticFlow framework to simultaneously predict scene flow and instance segmentation of full-resolution point clouds. The novelty of this work is threefold: 1) developing a coarse-to-fine prediction based multi-task scheme, where an initial coarse segmentation of static backgrounds and dynamic objects is used to provide contextual information for refining motion and semantic information through a shared feature processing module; 2) developing a set of loss functions to enhance the performance of scene flow estimation and instance segmentation, while can help ensure spatial and temporal consistency of both static and dynamic objects within traffic scenes; 3) developing a self-supervised learning scheme, which utilizes coarse segmentation to detect rigid objects and compute their transformation matrices between sequential frames, enabling the generation of self-supervised labels. The proposed framework is validated on the Argoverse and Waymo datasets, demonstrating superior performance in instance segmentation accuracy, scene flow estimation, and computational efficiency, establishing a new benchmark for self-supervised methods in dynamic scene understanding.
- Abstract(参考訳): ダイナミックな交通シーンの正確な認識は、堅牢な物体の動き推定とインスタンスのセグメンテーションを必要とする、ハイレベルな自動運転システムにとって不可欠である。
しかし、従来の手法はそれらを別々のタスクとして扱うことが多く、情報共有が欠如している複雑なシナリオにおいて、最適以下のパフォーマンス、時空間的不整合、非効率をもたらす。
本稿では,シーンフローと全解像度点雲のインスタンスセグメンテーションを同時に予測するマルチタスクセマンティックフローフレームワークを提案する。
この作品の斬新さは3倍です。
1) 静的背景と動的オブジェクトの最初の粗いセグメンテーションを併用した粗大な予測に基づくマルチタスク方式の開発。
2)交通シーン内の静的・動的オブジェクトの空間的・時間的整合性を確保しつつ,シーンフロー推定とインスタンスセグメンテーションの性能を高めるための損失関数セットの開発。
3) 厳密な物体を検出し, 連続するフレーム間の変換行列を計算し, 自己教師付きラベルの生成を可能にする, 粗いセグメンテーションを用いた自己教師型学習手法の開発。
提案手法はArgoverse と Waymo のデータセット上で検証され,インスタンスのセグメンテーション精度,シーンフロー推定,計算効率が向上し,動的シーン理解における自己監督手法のベンチマークが新たに確立された。
関連論文リスト
- Learning Motion and Temporal Cues for Unsupervised Video Object Segmentation [49.113131249753714]
本稿では,動きと時間的手がかりを同時に活用する,MTNetと呼ばれる効率的なアルゴリズムを提案する。
MTNetは、エンコーダ内の特徴抽出過程において、外観と動作の特徴を効果的にマージすることによって考案される。
派生した機能を最適に活用するために、すべての機能レベルのデコーダのカスケードを使用します。
論文 参考訳(メタデータ) (2025-01-14T03:15:46Z) - Static-Dynamic Class-level Perception Consistency in Video Semantic Segmentation [9.964615076037397]
ビデオセマンティックセグメンテーション(VSS)は、同時ローカライゼーションやマッピングなど、多くの分野で広く利用されている。
これまでの取り組みは主にピクセルレベルの静的なコンテキストマッチングに重点を置いてきた。
本稿では,クラスレベルでの静的なコンテキストを再考し,新しい静的なクラスレベルの知覚整合性フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T02:29:51Z) - SeFlow: A Self-Supervised Scene Flow Method in Autonomous Driving [18.88208422580103]
連続したLiDARスキャンで各点における3次元運動を予測する。
現在の最先端の手法は、シーンフローネットワークをトレーニングするために注釈付きデータを必要とする。
本研究では,効率的な動的分類を学習に基づくシーンフローパイプラインに統合するSeFlowを提案する。
論文 参考訳(メタデータ) (2024-07-01T18:22:54Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - A Dynamic Feature Interaction Framework for Multi-task Visual Perception [100.98434079696268]
複数の共通認識課題を解決するための効率的な統合フレームワークを考案する。
これらのタスクには、インスタンスセグメンテーション、セマンティックセグメンテーション、モノクル3D検出、深さ推定が含まれる。
提案するフレームワークはD2BNetと呼ばれ,マルチタスク認識のためのパラメータ効率予測に一意なアプローチを示す。
論文 参考訳(メタデータ) (2023-06-08T09:24:46Z) - Motion-state Alignment for Video Semantic Segmentation [4.375012768093524]
ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-04-18T08:34:46Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。