論文の概要: Delving Deeper into the Decoder for Video Captioning
- arxiv url: http://arxiv.org/abs/2001.05614v3
- Date: Sat, 15 Feb 2020 01:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 23:36:48.439620
- Title: Delving Deeper into the Decoder for Video Captioning
- Title(参考訳): ビデオキャプションのためのデコーダに深く入り込む
- Authors: Haoran Chen, Jianmin Li and Xiaolin Hu
- Abstract要約: ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
我々はデコーダについて徹底的な調査を行い、モデルの性能を向上させるために3つの手法を採用する。
Microsoft Research Video Description Corpus (MSVD) と MSR-Video to Text (MSR-VTT) データセットで実証されている。
- 参考スコア(独自算出の注目度): 23.202746094988715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning is an advanced multi-modal task which aims to describe a
video clip using a natural language sentence. The encoder-decoder framework is
the most popular paradigm for this task in recent years. However, there exist
some problems in the decoder of a video captioning model. We make a thorough
investigation into the decoder and adopt three techniques to improve the
performance of the model. First of all, a combination of variational dropout
and layer normalization is embedded into a recurrent unit to alleviate the
problem of overfitting. Secondly, a new online method is proposed to evaluate
the performance of a model on a validation set so as to select the best
checkpoint for testing. Finally, a new training strategy called professional
learning is proposed which uses the strengths of a captioning model and
bypasses its weaknesses. It is demonstrated in the experiments on Microsoft
Research Video Description Corpus (MSVD) and MSR-Video to Text (MSR-VTT)
datasets that our model has achieved the best results evaluated by BLEU, CIDEr,
METEOR and ROUGE-L metrics with significant gains of up to 18% on MSVD and 3.5%
on MSR-VTT compared with the previous state-of-the-art models.
- Abstract(参考訳): ビデオキャプションは、自然言語文を用いてビデオクリップを記述することを目的とした、高度なマルチモーダルタスクである。
エンコーダ-デコーダフレームワークは近年、このタスクでもっとも人気のあるパラダイムである。
しかし,ビデオキャプションモデルのデコーダにはいくつかの問題がある。
我々はデコーダについて徹底的な調査を行い,モデルの性能向上のために3つの手法を採用する。
第一に、過度に適合する問題を緩和するために、ばらつきのドロップアウトと層正規化の組み合わせを繰り返しユニットに埋め込む。
次に,検証セット上でのモデルの性能を評価するために,テストに最適なチェックポイントを選択するための新しいオンライン手法を提案する。
最後に,字幕モデルの強みを活かし,その弱さを回避し,プロフェッショナルラーニングと呼ばれる新たなトレーニング戦略を提案する。
microsoft research video description corpus (msvd) とmsr-video to text (msr-vtt) による実験では、これまでの最新モデルと比較して、bleu、cider、meteor、rouge-lの指標で評価した結果が最大で18%、msr-vttでは3.5%という結果が得られたことが示されている。
関連論文リスト
- Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。
新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。
提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文 参考訳(メタデータ) (2024-07-18T01:55:48Z) - Video Anomaly Detection and Explanation via Large Language Models [34.52845566893497]
ビデオ異常検出(VAD)は、長距離監視ビデオのタイムライン上で異常事象をローカライズすることを目的としている。
本稿では,ビデオベース大規模言語モデル(VLLM)をVADの枠組みで実装するための先駆的な研究を行う。
本稿では,長距離コンテキストモデリングにおけるVLLMの可読性を軽減するために,新しいネットワークモジュールLong-Term Context (LTC)を導入する。
論文 参考訳(メタデータ) (2024-01-11T07:09:44Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment [68.08689660963468]
Token-Aware Cascade contrastive Learning (TACo)と呼ばれる新しいアルゴリズムは、2つの新しい手法を用いてコントラスト学習を改善する。
そこで我々は,YouCook2,MSR-VTT,ActivityNetの3つの公開テキストビデオ検索ベンチマークに最先端を新たに設定した。
論文 参考訳(メタデータ) (2021-08-23T07:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。