論文の概要: A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects
- arxiv url: http://arxiv.org/abs/2506.13552v1
- Date: Mon, 16 Jun 2025 14:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.698696
- Title: A Comprehensive Survey on Video Scene Parsing:Advances, Challenges, and Prospects
- Title(参考訳): ビデオ・シーン・パーシングに関する総合的調査:アドバンス, 課題, 展望
- Authors: Guohuan Xie, Syed Ariff Syed Hesham, Wenya Guo, Bing Li, Ming-Ming Cheng, Guolei Sun, Yun Liu,
- Abstract要約: Video Scene Parsing (VSP) はコンピュータビジョンの基盤として登場した。
VSPはコンピュータビジョンの基盤として現れ、ダイナミックシーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
- 参考スコア(独自算出の注目度): 53.15503034595476
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video Scene Parsing (VSP) has emerged as a cornerstone in computer vision, facilitating the simultaneous segmentation, recognition, and tracking of diverse visual entities in dynamic scenes. In this survey, we present a holistic review of recent advances in VSP, covering a wide array of vision tasks, including Video Semantic Segmentation (VSS), Video Instance Segmentation (VIS), Video Panoptic Segmentation (VPS), as well as Video Tracking and Segmentation (VTS), and Open-Vocabulary Video Segmentation (OVVS). We systematically analyze the evolution from traditional hand-crafted features to modern deep learning paradigms -- spanning from fully convolutional networks to the latest transformer-based architectures -- and assess their effectiveness in capturing both local and global temporal contexts. Furthermore, our review critically discusses the technical challenges, ranging from maintaining temporal consistency to handling complex scene dynamics, and offers a comprehensive comparative study of datasets and evaluation metrics that have shaped current benchmarking standards. By distilling the key contributions and shortcomings of state-of-the-art methodologies, this survey highlights emerging trends and prospective research directions that promise to further elevate the robustness and adaptability of VSP in real-world applications.
- Abstract(参考訳): Video Scene Parsing (VSP)はコンピュータビジョンの基盤として現れ、動的シーンにおける多様な視覚的実体の同時セグメンテーション、認識、追跡を容易にする。
本稿では,ビデオセマンティックセグメンテーション(VSS),ビデオインスタンスセグメンテーション(VIS),ビデオパノプティックセグメンテーション(VPS),ビデオトラッキングとセグメンテーション(VTS),オープンボキャブラリビデオセグメンテーション(OVVS)など,VSPの最近の進歩を概観する。
従来の手作り機能から最新のディープラーニングパラダイム – 完全な畳み込みネットワークから最新のトランスフォーマーベースのアーキテクチャ – への進化を体系的に分析し、ローカルとグローバル両方の時間的コンテキストをキャプチャする上での有効性を評価します。
さらに、このレビューでは、時間的一貫性の維持から複雑なシーンの動的処理まで、技術的な課題について批判的に論じており、現在のベンチマーク標準を形成するデータセットと評価指標の総合的な比較研究を提供している。
本調査は、最先端の方法論の重要な貢献と欠点を抽出することにより、現実の応用におけるVSPの堅牢性と適応性をさらに高めることを約束する、新たなトレンドと今後の研究方向性を明らかにする。
関連論文リスト
- AceVFI: A Comprehensive Survey of Advances in Video Frame Interpolation [8.563354084119062]
ビデオフレーム補間(VFI)は、既存のフレーム間で中間フレームを合成する基本的な低レベルビジョン(LLV)タスクである。
これまでにVFIに関する最も包括的な調査であるAceVFIを紹介します。
中心時間フレーム補間(CTFI)と任意時間フレーム補間(ATFI)の学習パラダイムを分類する。
論文 参考訳(メタデータ) (2025-06-01T16:01:24Z) - Towards Open-Vocabulary Video Semantic Segmentation [40.58291642595943]
オープン語彙ビデオセマンティック(OV-VSS: Open Vocabulary Video Semantic)タスクを導入する。
OV-VSSの性能を向上させるため,空間時間融合モジュールを統合したロバストベースラインOV2VSSを提案する。
我々のアプローチには、ビデオコンテキスト内のテキスト情報を解釈する能力を強化するビデオテキストエンコーディングも含まれている。
論文 参考訳(メタデータ) (2024-12-12T14:53:16Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - DVIS++: Improved Decoupled Framework for Universal Video Segmentation [30.703276476607545]
我々は,最初のオープン語彙ユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
CLIPとDVIS++を統合することで、最初のオープン語彙のユニバーサルビデオセグメンテーションフレームワークであるOV-DVIS++を提案する。
論文 参考訳(メタデータ) (2023-12-20T03:01:33Z) - Deep Learning Techniques for Video Instance Segmentation: A Survey [19.32547752428875]
ビデオインスタンスセグメンテーションは、2019年に導入された新しいコンピュータビジョン研究分野である。
ディープラーニング技術は、様々なコンピュータビジョン領域において支配的な役割を担っている。
このサーベイは、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供する。
論文 参考訳(メタデータ) (2023-10-19T00:27:30Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。