論文の概要: Video Captioning: a comparative review of where we are and which could
be the route
- arxiv url: http://arxiv.org/abs/2204.05976v1
- Date: Tue, 12 Apr 2022 17:42:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 13:39:21.063531
- Title: Video Captioning: a comparative review of where we are and which could
be the route
- Title(参考訳): Video Captioning: 私たちがどこにいて、どこがルートなのかの比較レビュー
- Authors: Daniela Moctezuma, Tania Ram\'irez-delReal, Guillermo Ruiz, Oth\'on
Gonz\'alez-Ch\'avez
- Abstract要約: ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。
この写本は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
- 参考スコア(独自算出の注目度): 0.21301560294088315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning is the process of describing the content of a sequence of
images capturing its semantic relationships and meanings. Dealing with this
task with a single image is arduous, not to mention how difficult it is for a
video (or images sequence). The amount and relevance of the applications of
video captioning are vast, mainly to deal with a significant amount of video
recordings in video surveillance, or assisting people visually impaired, to
mention a few. To analyze where the efforts of our community to solve the video
captioning task are, as well as what route could be better to follow, this
manuscript presents an extensive review of more than 105 papers for the period
of 2016 to 2021. As a result, the most-used datasets and metrics are
identified. Also, the main approaches used and the best ones. We compute a set
of rankings based on several performance metrics to obtain, according to its
performance, the best method with the best result on the video captioning task.
Finally, some insights are concluded about which could be the next steps or
opportunity areas to improve dealing with this complex task.
- Abstract(参考訳): ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。
このタスクを単一のイメージで処理することは、ビデオ(あるいは画像シーケンス)がどれほど難しいかは言うまでもなく、難しい。
ビデオキャプションの応用の量と関連性は、主にビデオ監視における大量のビデオ記録を扱うか、視覚障害者を支援するために、非常に大きい。
ビデオキャプションの課題を解決するためのコミュニティの努力や、フォローするべき道を分析するために、本原稿は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
その結果、最もよく使われるデータセットとメトリクスが特定される。
また、主なアプローチと最良のアプローチも使用しました。
本研究では,いくつかのパフォーマンス指標に基づいてランキングを算出し,その評価に基づいて,動画キャプションタスクにおいて最高の結果が得られる最善の方法を得る。
最後に、この複雑なタスクの処理を改善するための次のステップまたは機会領域として、いくつかの洞察が得られます。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Shot2Story20K: A New Benchmark for Comprehensive Understanding of
Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。
予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。