論文の概要: A Survey on Deep Learning Technique for Video Segmentation
- arxiv url: http://arxiv.org/abs/2107.01153v1
- Date: Fri, 2 Jul 2021 15:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:49:01.376471
- Title: A Survey on Deep Learning Technique for Video Segmentation
- Title(参考訳): ビデオセグメンテーションのためのディープラーニング技術に関する調査
- Authors: Wenguan Wang, Tianfei Zhou, Fatih Porikli, David Crandall, Luc Van
Gool
- Abstract要約: ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
- 参考スコア(独自算出の注目度): 147.0767454918527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video segmentation, i.e., partitioning video frames into multiple segments or
objects, plays a critical role in a broad range of practical applications,
e.g., visual effect assistance in movie, scene understanding in autonomous
driving, and virtual background creation in video conferencing, to name a few.
Recently, due to the renaissance of connectionism in computer vision, there has
been an influx of numerous deep learning based approaches that have been
dedicated to video segmentation and delivered compelling performance. In this
survey, we comprehensively review two basic lines of research in this area,
i.e., generic object segmentation (of unknown categories) in videos and video
semantic segmentation, by introducing their respective task settings,
background concepts, perceived need, development history, and main challenges.
We also provide a detailed overview of representative literature on both
methods and datasets. Additionally, we present quantitative performance
comparisons of the reviewed methods on benchmark datasets. At last, we point
out a set of unsolved open issues in this field, and suggest possible
opportunities for further research.
- Abstract(参考訳): ビデオセグメンテーション(ビデオセグメンテーション、ビデオフレームを複数のセグメントまたはオブジェクトに分割する)は、映画における視覚効果補助、自律運転におけるシーン理解、ビデオ会議における仮想背景生成など、幅広い実践的応用において重要な役割を果たしている。
近年,コンピュータビジョンにおけるコネクショナリズムのルネサンスにより,映像セグメンテーションに特化し,魅力的なパフォーマンスを提供するディープラーニングベースのアプローチが数多く流入している。
本調査では,各タスク設定,背景概念,認識されたニーズ,開発履歴,主な課題について,ビデオおよびビデオ意味セグメンテーションにおけるジェネリックオブジェクトセグメンテーション(未知のカテゴリの)という,この分野における2つの基本的な研究方針を総合的にレビューする。
また,提案手法とデータセットについて,代表文献の詳細な概要を述べる。
さらに,ベンチマークデータセットにおけるレビュー手法の定量的性能比較を行った。
最終的に、この分野における未解決の未解決問題の集合を指摘し、さらなる研究の機会を提案する。
関連論文リスト
- Video Summarization Techniques: A Comprehensive Review [1.6381055567716192]
本稿では,抽象的戦略と抽出的戦略の両方を強調し,映像要約のための様々なアプローチと手法について考察する。
抽出要約のプロセスは、ソースビデオからキーフレームやセグメントを識別し、ショット境界認識やクラスタリングなどの手法を利用する。
一方、抽象的な要約は、深層ニューラルネットワークや自然言語処理、強化学習、注意機構、生成的敵ネットワーク、マルチモーダル学習といった機械学習モデルを用いて、ビデオから不可欠なコンテンツを取得することによって、新たなコンテンツを生成する。
論文 参考訳(メタデータ) (2024-10-06T11:17:54Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - Deep Learning Techniques for Video Instance Segmentation: A Survey [19.32547752428875]
ビデオインスタンスセグメンテーションは、2019年に導入された新しいコンピュータビジョン研究分野である。
ディープラーニング技術は、様々なコンピュータビジョン領域において支配的な役割を担っている。
このサーベイは、ビデオインスタンスセグメンテーションのためのディープラーニングスキームの多面的なビューを提供する。
論文 参考訳(メタデータ) (2023-10-19T00:27:30Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos [4.189643331553923]
本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
論文 参考訳(メタデータ) (2020-12-08T13:37:40Z) - A Comprehensive Review on Recent Methods and Challenges of Video
Description [11.69687792533269]
ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語と視覚のギャップを埋めることで、映像記述の様々な応用がある。
過去10年間に、ビデオ記述、評価メトリクス、データセットのアプローチ/方法に関して、この分野でいくつかの研究が行われてきた。
論文 参考訳(メタデータ) (2020-11-30T13:08:45Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Motion-supervised Co-Part Segmentation [88.40393225577088]
本稿では,コパートセグメンテーションのための自己教師型ディープラーニング手法を提案する。
提案手法は,映像から推定される動き情報を有効活用して意味のある物体の発見を可能にする。
論文 参考訳(メタデータ) (2020-04-07T09:56:45Z) - Image Segmentation Using Deep Learning: A Survey [58.37211170954998]
イメージセグメンテーションは、画像処理とコンピュータビジョンにおいて重要なトピックである。
深層学習モデルを用いた画像セグメンテーション手法の開発を目的とした研究が,これまでに数多く行われている。
論文 参考訳(メタデータ) (2020-01-15T21:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。