論文の概要: A Comprehensive Review on Recent Methods and Challenges of Video
Description
- arxiv url: http://arxiv.org/abs/2011.14752v1
- Date: Mon, 30 Nov 2020 13:08:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 15:02:02.127041
- Title: A Comprehensive Review on Recent Methods and Challenges of Video
Description
- Title(参考訳): 映像解説の現状と課題の包括的考察
- Authors: Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay
- Abstract要約: ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語と視覚のギャップを埋めることで、映像記述の様々な応用がある。
過去10年間に、ビデオ記述、評価メトリクス、データセットのアプローチ/方法に関して、この分野でいくつかの研究が行われてきた。
- 参考スコア(独自算出の注目度): 11.69687792533269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video description involves the generation of the natural language description
of actions, events, and objects in the video. There are various applications of
video description by filling the gap between languages and vision for visually
impaired people, generating automatic title suggestion based on content,
browsing of the video based on the content and video-guided machine translation
[86] etc.In the past decade, several works had been done in this field in terms
of approaches/methods for video description, evaluation metrics,and datasets.
For analyzing the progress in the video description task, a comprehensive
survey is needed that covers all the phases of video description approaches
with a special focus on recent deep learning approaches. In this work, we
report a comprehensive survey on the phases of video description approaches,
the dataset for video description, evaluation metrics, open competitions for
motivating the research on the video description, open challenges in this
field, and future research directions. In this survey, we cover the
state-of-the-art approaches proposed for each and every dataset with their pros
and cons. For the growth of this research domain,the availability of numerous
benchmark dataset is a basic need. Further, we categorize all the dataset into
two classes: open domain dataset and domain-specific dataset. From our survey,
we observe that the work in this field is in fast-paced development since the
task of video description falls in the intersection of computer vision and
natural language processing. But still, the work in the video description is
far from saturation stage due to various challenges like the redundancy due to
similar frames which affect the quality of visual features, the availability of
dataset containing more diverse content and availability of an effective
evaluation metric.
- Abstract(参考訳): ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。
視覚障害者のための言語とビジョンのギャップを埋めること、コンテンツに基づくタイトルの自動提案、コンテンツに基づくビデオ閲覧、ビデオガイドによる機械翻訳[86]など、ビデオ記述のさまざまな応用があり、過去10年間、ビデオ記述のアプローチや手法、評価メトリクス、データセットなどの分野でいくつかの研究が行われてきた。
ビデオ記述タスクの進捗を分析するためには,最近のディープラーニングアプローチを中心に,ビデオ記述アプローチの全フェーズをカバーする包括的調査が必要である。
本稿では,映像記述手法の段階,映像記述のためのデータセット,評価指標,映像記述研究のモチベーションとなるオープンコンペティション,この分野におけるオープンチャレンジ,今後の研究方向性について総合的な調査を行う。
本調査では,各データセットに対して提案する最先端のアプローチについて,その長所と短所を概説する。
この研究領域の成長のためには、多数のベンチマークデータセットが利用できることが基本的なニーズである。
さらに、すべてのデータセットをopen domain datasetとdomain-specific datasetの2つのクラスに分類します。
本調査から,コンピュータビジョンと自然言語処理の交差点に映像記述のタスクが存在するため,この分野の課題は急速に進展していることが明らかとなった。
しかし、ビデオ記述の作業は、視覚特徴の質に影響を与える類似のフレームによる冗長性、より多様なコンテンツを含むデータセットの可用性、効果的な評価指標の可用性など、さまざまな課題により、飽和段階には程遠い。
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Deep Learning for Video-Text Retrieval: a Review [13.341694455581363]
Video-Text Retrieval (VTR) は、ある文のセマンティクスに関連する最も関連性の高いビデオを探すことを目的としている。
本稿では,VTRに関する100以上の研究論文をレビューし,要約する。
論文 参考訳(メタデータ) (2023-02-24T10:14:35Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Spoken Moments: Learning Joint Audio-Visual Representations from Video
Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。
AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文 参考訳(メタデータ) (2021-05-10T16:30:46Z) - Bridging Vision and Language from the Video-to-Text Perspective: A
Comprehensive Review [1.0520692160489133]
本稿では,ビデオ・トゥ・テキスト問題に対する最先端技術の分類と解説を行う。
主なvideo-to-textメソッドとそのパフォーマンス評価方法をカバーする。
最先端の技術は、ビデオ記述の生成または取得における人間のようなパフォーマンスを達成するには、まだ長い道のりです。
論文 参考訳(メタデータ) (2021-03-27T02:12:28Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。