Fugu-MT 論文翻訳(概要): MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion

論文の概要: MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion

arxiv url: http://arxiv.org/abs/2405.19921v2
Date: Thu, 5 Sep 2024 08:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-07 02:44:29.119798
Title: MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion
Title（参考訳）: MCDS-VSS:自監督幾何と動きによるフィルタリングによる移動カメラダイナミックシーン映像セマンティックセグメンテーション
Authors: Angel Villar-Corrales, Moritz Austermann, Sven Behnke,
Abstract要約: 自動運転車は意思決定に信頼性のあるセマンティックな環境認識に依存している。本稿では,カメラのシーン形状とエゴモーションを自己教師付きで学習する構造化フィルタモデルMCDS-VSSを提案する。我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションなどの複数の解釈可能な表現に解析する。
参考スコア（独自算出の注目度）: 17.50161162624179
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous systems, such as self-driving cars, rely on reliable semantic environment perception for decision making. Despite great advances in video semantic segmentation, existing approaches ignore important inductive biases and lack structured and interpretable internal representations. In this work, we propose MCDS-VSS, a structured filter model that learns in a self-supervised manner to estimate scene geometry and ego-motion of the camera, while also estimating the motion of external objects. Our model leverages these representations to improve the temporal consistency of semantic segmentation without sacrificing segmentation accuracy. MCDS-VSS follows a prediction-fusion approach in which scene geometry and camera motion are first used to compensate for ego-motion, then residual flow is used to compensate motion of dynamic objects, and finally the predicted scene features are fused with the current features to obtain a temporally consistent scene segmentation. Our model parses automotive scenes into multiple decoupled interpretable representations such as scene geometry, ego-motion, and object motion. Quantitative evaluation shows that MCDS-VSS achieves superior temporal consistency on video sequences while retaining competitive segmentation performance.
Abstract（参考訳）: 自動運転車のような自律システムは、意思決定に信頼できるセマンティックな環境認識に依存している。ビデオセマンティックセグメンテーションの進歩にもかかわらず、既存のアプローチは重要な帰納バイアスを無視し、構造的で解釈可能な内部表現を欠いている。本研究では,カメラのシーン形状とエゴモーションを推定し,外部物体の動きを推定する構造付きフィルタモデルMCDS-VSSを提案する。我々のモデルはこれらの表現を活用し、セグメンテーションの精度を犠牲にすることなくセグメンテーションの時間的一貫性を向上させる。 MCDS-VSSは、シーン幾何学とカメラモーションを最初にエゴモーションを補うために使用し、その後、ダイナミックオブジェクトの動きを補うために残留フローを使用し、最終的に予測されたシーン特徴を現在の特徴と融合させて時間的に一貫したシーンセグメンテーションを得る、予測融合アプローチに従っている。我々のモデルは自動車シーンを、シーン幾何学、エゴモーション、オブジェクトモーションといった複数の分離された解釈可能な表現に解析する。 MCDS-VSSは、競合セグメンテーション性能を維持しつつ、ビデオシーケンスの時間的一貫性を向上することを示す。

関連論文リスト

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。 SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文参考訳（メタデータ） (2025-07-21T17:59:02Z)
Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文参考訳（メタデータ） (2025-06-01T13:28:04Z)
Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文参考訳（メタデータ） (2025-03-28T09:34:11Z)
Zero-Shot Video Semantic Segmentation based on Pre-Trained Diffusion Models [96.97910688908956]
本稿では,事前学習した拡散モデルに基づくビデオセマンティック(VSS)の最初のゼロショット手法を提案する。予め訓練された画像とビデオ拡散モデルに基づくVSSに適したフレームワークを提案する。実験により,提案手法は既存のゼロショット画像セマンティックセグメンテーション手法よりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-27T08:39:38Z)
Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation for Complex Scenes [10.936350433952668]
モーションセグメンテーション(Motion segmentation)とも呼ばれる動的シーン部品の迅速かつ信頼性の高い識別は、モバイルセンサーにとって重要な課題である。イベントカメラはこれらの制限を克服する可能性があるが、それに対応する方法は小規模の屋内環境でのみ実証されている。本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。
論文参考訳（メタデータ） (2024-03-07T14:59:34Z)
Vanishing-Point-Guided Video Semantic Segmentation of Driving Scenes [70.08318779492944]
私たちは、より効果的なセグメンテーションのために消滅点(VP)を最初に利用しました。当社の新しいVSS用ネットワークであるVPSegには,この静的および動的VPプリエントを正確に利用する2つのモジュールが組み込まれています。
論文参考訳（メタデータ） (2024-01-27T01:01:58Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。完全教師なし方式で動作する新しい長期光時間モデルを提案する。 4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文参考訳（メタデータ） (2023-10-02T09:33:54Z)
The Emergence of Objectness: Learning Zero-Shot Segmentation from Videos [59.12750806239545]
動画は移動成分によって同じシーンを異なる視点で見ることができ、適切な領域分割と領域フローは相互のビュー合成を可能にする。モデルでは,1枚の画像に対して特徴に基づく領域分割を出力する出現経路と,1枚の画像に対して動作特徴を出力する動き経路の2つの経路から開始する。セグメントフローに基づく視線合成誤差を最小限に抑えるためにモデルを訓練することにより、我々の外観経路と運動経路は、それぞれ低レベルのエッジや光フローから構築することなく、領域のセグメンテーションとフロー推定を自動的に学習する。
論文参考訳（メタデータ） (2021-11-11T18:59:11Z)
Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。 2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文参考訳（メタデータ） (2021-01-11T04:20:30Z)
Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。 FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文参考訳（メタデータ） (2020-08-18T11:40:18Z)
DyStaB: Unsupervised Object Segmentation via Dynamic-Static Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文参考訳（メタデータ） (2020-08-16T22:05:13Z)
Improving Semantic Segmentation through Spatio-Temporal Consistency Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文参考訳（メタデータ） (2020-04-11T07:09:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。