論文の概要: Video Captioning: a comparative review of where we are and which could
be the route
- arxiv url: http://arxiv.org/abs/2204.05976v2
- Date: Wed, 13 Apr 2022 16:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 10:47:11.930374
- Title: Video Captioning: a comparative review of where we are and which could
be the route
- Title(参考訳): Video Captioning: 私たちがどこにいて、どこがルートなのかの比較レビュー
- Authors: Daniela Moctezuma, Tania Ram\'irez-delReal, Guillermo Ruiz, Oth\'on
Gonz\'alez-Ch\'avez
- Abstract要約: ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。
この写本は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
- 参考スコア(独自算出の注目度): 0.21301560294088315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning is the process of describing the content of a sequence of
images capturing its semantic relationships and meanings. Dealing with this
task with a single image is arduous, not to mention how difficult it is for a
video (or images sequence). The amount and relevance of the applications of
video captioning are vast, mainly to deal with a significant amount of video
recordings in video surveillance, or assisting people visually impaired, to
mention a few. To analyze where the efforts of our community to solve the video
captioning task are, as well as what route could be better to follow, this
manuscript presents an extensive review of more than 105 papers for the period
of 2016 to 2021. As a result, the most-used datasets and metrics are
identified. Also, the main approaches used and the best ones. We compute a set
of rankings based on several performance metrics to obtain, according to its
performance, the best method with the best result on the video captioning task.
Finally, some insights are concluded about which could be the next steps or
opportunity areas to improve dealing with this complex task.
- Abstract(参考訳): ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。
このタスクを単一のイメージで処理することは、ビデオ(あるいは画像シーケンス)がどれほど難しいかは言うまでもなく、難しい。
ビデオキャプションの応用の量と関連性は、主にビデオ監視における大量のビデオ記録を扱うか、視覚障害者を支援するために、非常に大きい。
ビデオキャプションの課題を解決するためのコミュニティの努力や、フォローするべき道を分析するために、本原稿は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
その結果、最もよく使われるデータセットとメトリクスが特定される。
また、主なアプローチと最良のアプローチも使用しました。
本研究では,いくつかのパフォーマンス指標に基づいてランキングを算出し,その評価に基づいて,動画キャプションタスクにおいて最高の結果が得られる最善の方法を得る。
最後に、この複雑なタスクの処理を改善するための次のステップまたは機会領域として、いくつかの洞察が得られます。
関連論文リスト
- AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [89.73538448786405]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。
トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。
AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-04T00:13:54Z) - Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.53311308617818]
マルチショットビデオ理解ベンチマークShot2Storyには、詳細なショットレベルのキャプション、包括的なビデオ要約、質問応答ペアがある。
予備実験では、マルチショットビデオの長大かつ包括的な要約を生成するための課題がいくつか示されている。
生成された不完全な要約は、既存のビデオ理解タスクにおいて、すでに競合的なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-12-16T03:17:30Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Bench-Marking And Improving Arabic Automatic Image Captioning Through
The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。
マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。
しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文 参考訳(メタデータ) (2022-02-11T06:29:25Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。