論文の概要: A Review of Deep Learning for Video Captioning
- arxiv url: http://arxiv.org/abs/2304.11431v1
- Date: Sat, 22 Apr 2023 15:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:28:36.408432
- Title: A Review of Deep Learning for Video Captioning
- Title(参考訳): ビデオキャプションのための深層学習の展望
- Authors: Moloud Abdar, Meenakshi Kollati, Swaraja Kuraparthi, Farhad Pourpanah,
Daniel McDuff, Mohammad Ghavamzadeh, Shuicheng Yan, Abduallah Mohamed, Abbas
Khosravi, Erik Cambria, Fatih Porikli
- Abstract要約: ビデオキャプション(VC)は、素早く動き、学際的な研究分野である。
この調査では、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵対的ネットワーク、高密度ビデオキャプション(DVC)など、ディープラーニングベースのVCをカバーする。
- 参考スコア(独自算出の注目度): 111.1557921247882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning (VC) is a fast-moving, cross-disciplinary area of research
that bridges work in the fields of computer vision, natural language processing
(NLP), linguistics, and human-computer interaction. In essence, VC involves
understanding a video and describing it with language. Captioning is used in a
host of applications from creating more accessible interfaces (e.g., low-vision
navigation) to video question answering (V-QA), video retrieval and content
generation. This survey covers deep learning-based VC, including but, not
limited to, attention-based architectures, graph networks, reinforcement
learning, adversarial networks, dense video captioning (DVC), and more. We
discuss the datasets and evaluation metrics used in the field, and limitations,
applications, challenges, and future directions for VC.
- Abstract(参考訳): ビデオキャプション(VC)は、コンピュータビジョン、自然言語処理(NLP)、言語学、人間とコンピュータの相互作用の分野で橋渡しを行う、高速で学際的な研究分野である。
本質的に、VCはビデオを理解し、それを言語で記述する。
キャプションは、よりアクセスしやすいインターフェース(低視野ナビゲーションなど)からビデオ質問応答(V-QA)、ビデオ検索、コンテンツ生成に至るまで、多くのアプリケーションで使用されている。
この調査では、ディープラーニングベースのVC、注目に基づくアーキテクチャ、グラフネットワーク、強化学習、敵ネットワーク、高密度ビデオキャプション(DVC)などを対象としている。
この分野で使用されるデータセットと評価指標、およびVCの限界、応用、課題、今後の方向性について論じる。
関連論文リスト
- ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation
Protocols [53.706461356853445]
アントリムされたビデオには、関連のあるイベント、依存関係、コンテキスト、重複するイベント、オブジェクトとオブジェクトのインタラクション、ドメインの特異性、その他の説明に値するセマンティクスがある。
ビデオキャプション(DVC)は、特定のビデオ内の異なるイベントを検出し、記述することを目的としている。
論文 参考訳(メタデータ) (2023-11-05T01:45:31Z) - Video Question Answering Using CLIP-Guided Visual-Text Attention [17.43377106246301]
Video Question Answering(ビデオQA)におけるビデオとテキストのクロスモーダル学習の役割
本稿では,多くの汎用言語と画像のペアで訓練されたコントラスト言語-画像事前学習(CLIP)を利用する視覚テキストアテンション機構を提案する。
提案手法はMSVD-QAおよびMSRVTT-QAデータセット上で評価され,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-03-06T13:49:15Z) - Vision-Language Pre-training: Basics, Recent Advances, and Future Trends [158.34830433299268]
近年,マルチモーダルインテリジェンスのための視覚言語事前学習法が開発されている。
各カテゴリについて、最先端の手法の総合的なレビューを行い、現在進行中の進歩と課題について論じる。
また,研究コミュニティにおいて,大規模基盤モデル,統合モデリング,文脈内数発の学習,知識,堅牢性,コンピュータビジョンなど,高度なトピックが積極的に検討されていることについても論じる。
論文 参考訳(メタデータ) (2022-10-17T17:11:36Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。