論文の概要: Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation
- arxiv url: http://arxiv.org/abs/2507.05948v1
- Date: Tue, 08 Jul 2025 12:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.051592
- Title: Beyond Appearance: Geometric Cues for Robust Video Instance Segmentation
- Title(参考訳): Beyond Outearance:ロバストなビデオインスタンスセグメンテーションのための幾何学的キュー
- Authors: Quanzhu Niu, Yikang Zhou, Shihao Chen, Tao Zhang, Shunping Ji,
- Abstract要約: ビデオインスタンス(VIS)は、オブジェクトの閉塞、動きのぼやけ、時間的関連における外見の変化など、広範囲にわたる課題に苦しむ。
本研究は, 単分子深度推定を戦略的に活用することにより, VISロバスト性を高めるための幾何学的認識を導入する。
- 参考スコア(独自算出の注目度): 4.758003788386867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Instance Segmentation (VIS) fundamentally struggles with pervasive challenges including object occlusions, motion blur, and appearance variations during temporal association. To overcome these limitations, this work introduces geometric awareness to enhance VIS robustness by strategically leveraging monocular depth estimation. We systematically investigate three distinct integration paradigms. Expanding Depth Channel (EDC) method concatenates the depth map as input channel to segmentation networks; Sharing ViT (SV) designs a uniform ViT backbone, shared between depth estimation and segmentation branches; Depth Supervision (DS) makes use of depth prediction as an auxiliary training guide for feature learning. Though DS exhibits limited effectiveness, benchmark evaluations demonstrate that EDC and SV significantly enhance the robustness of VIS. When with Swin-L backbone, our EDC method gets 56.2 AP, which sets a new state-of-the-art result on OVIS benchmark. This work conclusively establishes depth cues as critical enablers for robust video understanding.
- Abstract(参考訳): ビデオ・インスタンス・セグメンテーション(VIS)は、基本的に、オブジェクトの閉塞、動きのぼやけ、時間的関連における外見の変化など、広範囲にわたる課題に苦しむ。
これらの制限を克服するために、この研究は、単分子深度推定を戦略的に活用することにより、VISロバスト性を高めるための幾何学的認識を導入する。
3つの異なる統合パラダイムを体系的に検討する。
深度チャネル(EDC)法は,深度マップをセグメンテーションネットワークへの入力チャネルとして結合する; 深度推定とセグメンテーションブランチ間で共有される均一なViTバックボーンを設計する; 深度スーパービジョン(DS)では,特徴学習のための補助的なトレーニングガイドとして深度予測を利用する。
DSは限られた有効性を示すが、ベンチマーク評価により、EDCとSVはVISのロバスト性を大幅に向上させることが示された。
Swin-Lのバックボーンを使用すると、EDCメソッドは56.2 APとなり、OVISベンチマークで新しい最先端結果が設定される。
この研究は、堅牢なビデオ理解のための重要なイネーブラーとして、ディープキューを確定的に確立する。
関連論文リスト
- A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects [53.15503034595476]
Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
論文 参考訳(メタデータ) (2025-06-16T14:39:03Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - CTVIS: Consistent Training for Online Video Instance Segmentation [62.957370691452844]
オンラインビデオインスタンスセグメンテーション(VIS)におけるインスタンスの関連付けにおいて,インスタンス埋め込みの識別が重要な役割を担っている
近年のオンラインVIS手法では,参照フレームのみから派生したCIを活用している。
我々は,オンラインVIS(Consistent Training for Online VIS)と呼ばれる,トレーニングパイプラインと推論パイプラインの整合性を重視した,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:44:25Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。