Fugu-MT 論文翻訳(概要): Video Captioning: a comparative review of where we are and which could be the route

論文の概要: Video Captioning: a comparative review of where we are and which could be the route

arxiv url: http://arxiv.org/abs/2204.05976v1
Date: Tue, 12 Apr 2022 17:42:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-13 13:39:21.063531
Title: Video Captioning: a comparative review of where we are and which could be the route
Title（参考訳）: Video Captioning: 私たちがどこにいて、どこがルートなのかの比較レビュー
Authors: Daniela Moctezuma, Tania Ram\'irez-delReal, Guillermo Ruiz, Oth\'on Gonz\'alez-Ch\'avez
Abstract要約: ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。この写本は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。
参考スコア（独自算出の注目度）: 0.21301560294088315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video captioning is the process of describing the content of a sequence of images capturing its semantic relationships and meanings. Dealing with this task with a single image is arduous, not to mention how difficult it is for a video (or images sequence). The amount and relevance of the applications of video captioning are vast, mainly to deal with a significant amount of video recordings in video surveillance, or assisting people visually impaired, to mention a few. To analyze where the efforts of our community to solve the video captioning task are, as well as what route could be better to follow, this manuscript presents an extensive review of more than 105 papers for the period of 2016 to 2021. As a result, the most-used datasets and metrics are identified. Also, the main approaches used and the best ones. We compute a set of rankings based on several performance metrics to obtain, according to its performance, the best method with the best result on the video captioning task. Finally, some insights are concluded about which could be the next steps or opportunity areas to improve dealing with this complex task.
Abstract（参考訳）: ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。このタスクを単一のイメージで処理することは、ビデオ(あるいは画像シーケンス)がどれほど難しいかは言うまでもなく、難しい。ビデオキャプションの応用の量と関連性は、主にビデオ監視における大量のビデオ記録を扱うか、視覚障害者を支援するために、非常に大きい。ビデオキャプションの課題を解決するためのコミュニティの努力や、フォローするべき道を分析するために、本原稿は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。その結果、最もよく使われるデータセットとメトリクスが特定される。また、主なアプローチと最良のアプローチも使用しました。本研究では,いくつかのパフォーマンス指標に基づいてランキングを算出し,その評価に基づいて,動画キャプションタスクにおいて最高の結果が得られる最善の方法を得る。最後に、この複雑なタスクの処理を改善するための次のステップまたは機会領域として、いくつかの洞察が得られます。

関連論文リスト

Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark [73.62572976072578]
大規模なマルチモーダルモデルに基づくビデオキャプタであるAuroraCapを提案する。トークンマージ戦略を実装し、入力されたビジュアルトークンの数を減らす。 AuroraCapは、様々なビデオおよび画像キャプションベンチマークで優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-04T00:13:54Z)
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos [58.13927287437394]
マルチショットビデオ理解ベンチマークShot2Story20Kに、詳細なショットレベルのキャプションと包括的ビデオ要約を付加する。予備実験は、長大かつ包括的なビデオ要約を生成するためのいくつかの課題を示している。
論文参考訳（メタデータ） (2023-12-16T03:17:30Z)
Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文参考訳（メタデータ） (2023-12-01T23:56:00Z)
A Video is Worth 10,000 Words: Training and Benchmarking with Diverse Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。これは、ビデオのリッチさと多種多様な有効な記述を無視している。本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文参考訳（メタデータ） (2023-11-30T18:59:45Z)
Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文参考訳（メタデータ） (2023-03-29T02:33:54Z)
TL;DW? Summarizing Instructional Videos with Task Relevance & Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文参考訳（メタデータ） (2022-08-14T04:07:40Z)
Bench-Marking And Improving Arabic Automatic Image Captioning Through The Use Of Multi-Task Learning Paradigm [0.0]
本稿ではアラビア画像キャプションの性能を高める手法と手法について検討する。マルチタスク学習と事前学習語埋め込みの使用により、画像キャプションの品質が著しく向上した。しかし、提示された結果から、アラビア語の字幕化は、英語と比較してまだ遅れていることがわかる。
論文参考訳（メタデータ） (2022-02-11T06:29:25Z)
A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文参考訳（メタデータ） (2021-07-02T15:51:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。