論文の概要: Deep Learning Techniques for Video Instance Segmentation: A Survey
- arxiv url: http://arxiv.org/abs/2310.12393v1
- Date: Thu, 19 Oct 2023 00:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 17:25:50.521141
- Title: Deep Learning Techniques for Video Instance Segmentation: A Survey
- Title(参考訳): ビデオインスタンスセグメンテーションのためのディープラーニング技術:調査
- Authors: Chenhao Xu, Chang-Tsun Li, Yongjian Hu, Chee Peng Lim, Douglas
Creighton
- Abstract要約: ビデオインスタンスセグメンテーションは、2019年に導入された新しいコンピュータビジョン研究分野である。
ディープラーニング技術は、様々なコンピュータビジョン領域において支配的な役割を担っている。
このサーベイは、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供する。
- 参考スコア(独自算出の注目度): 19.32547752428875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation, also known as multi-object tracking and
segmentation, is an emerging computer vision research area introduced in 2019,
aiming at detecting, segmenting, and tracking instances in videos
simultaneously. By tackling the video instance segmentation tasks through
effective analysis and utilization of visual information in videos, a range of
computer vision-enabled applications (e.g., human action recognition, medical
image processing, autonomous vehicle navigation, surveillance, etc) can be
implemented. As deep-learning techniques take a dominant role in various
computer vision areas, a plethora of deep-learning-based video instance
segmentation schemes have been proposed. This survey offers a multifaceted view
of deep-learning schemes for video instance segmentation, covering various
architectural paradigms, along with comparisons of functional performance,
model complexity, and computational overheads. In addition to the common
architectural designs, auxiliary techniques for improving the performance of
deep-learning models for video instance segmentation are compiled and
discussed. Finally, we discuss a range of major challenges and directions for
further investigations to help advance this promising research field.
- Abstract(参考訳): ビデオインスタンスセグメンテーション(video instance segmentation)は、マルチオブジェクトトラッキングおよびセグメンテーションとしても知られ、2019年に導入された新しいコンピュータビジョン研究分野である。
ビデオ内の視覚情報の効果的な分析と利用を通じて、ビデオインスタンスセグメンテーションタスクに取り組むことにより、コンピュータビジョン対応の幅広いアプリケーション(例えば、人間の行動認識、医療画像処理、自動運転車ナビゲーション、監視など)を実装することができる。
様々なコンピュータビジョン領域においてディープラーニング技術が重要な役割を担っているため、多くのディープラーニングベースのビデオインスタンスセグメンテーションスキームが提案されている。
この調査は、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供し、様々なアーキテクチャパラダイムをカバーし、機能パフォーマンス、モデルの複雑さ、計算オーバーヘッドの比較を提供する。
一般的なアーキテクチャ設計に加えて,ビデオインスタンスセグメンテーションのためのディープラーニングモデルの性能向上のための補助手法をコンパイルし,検討した。
最後に、この有望な研究分野を前進させるため、今後の研究の課題と方向性について論じる。
関連論文リスト
- Video Summarization Techniques: A Comprehensive Review [1.6381055567716192]
本稿では,抽象的戦略と抽出的戦略の両方を強調し,映像要約のための様々なアプローチと手法について考察する。
抽出要約のプロセスは、ソースビデオからキーフレームやセグメントを識別し、ショット境界認識やクラスタリングなどの手法を利用する。
一方、抽象的な要約は、深層ニューラルネットワークや自然言語処理、強化学習、注意機構、生成的敵ネットワーク、マルチモーダル学習といった機械学習モデルを用いて、ビデオから不可欠なコンテンツを取得することによって、新たなコンテンツを生成する。
論文 参考訳(メタデータ) (2024-10-06T11:17:54Z) - Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention [29.62044843067169]
ビデオオブジェクトセグメンテーションはコンピュータビジョンの基本的な研究課題である。
変形性注意の蒸留学習に基づく自己教師型ビデオオブジェクトセグメンテーション法を提案する。
論文 参考訳(メタデータ) (2024-01-25T04:39:48Z) - CML-MOTS: Collaborative Multi-task Learning for Multi-Object Tracking
and Segmentation [31.167405688707575]
ビデオフレーム上でのインスタンスレベルの視覚分析のためのフレームワークを提案する。
オブジェクト検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングを同時に行うことができる。
提案手法は, KITTI MOTS と MOTS Challenge のデータセットを用いて広範に評価する。
論文 参考訳(メタデータ) (2023-11-02T04:32:24Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。