論文の概要: NITS-VC System for VATEX Video Captioning Challenge 2020
- arxiv url: http://arxiv.org/abs/2006.04058v2
- Date: Fri, 25 Sep 2020 14:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:13:52.728561
- Title: NITS-VC System for VATEX Video Captioning Challenge 2020
- Title(参考訳): VATEX Video Captioning Challenge 2020のためのNITS-VCシステム
- Authors: Alok Singh, Thoudam Doren Singh and Sivaji Bandyopadhyay
- Abstract要約: ビデオの視覚的特徴を3次元畳み込みニューラルネットワーク(C3D)を用いて符号化するエンコーダデコーダに基づく手法を用いる。
我々のモデルは、それぞれ公開テストデータセットとプライベートテストデータセットでBLEUスコア0.20と0.22を達成することができる。
- 参考スコア(独自算出の注目度): 16.628598778804403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning is process of summarising the content, event and action of
the video into a short textual form which can be helpful in many research areas
such as video guided machine translation, video sentiment analysis and
providing aid to needy individual. In this paper, a system description of the
framework used for VATEX-2020 video captioning challenge is presented. We
employ an encoder-decoder based approach in which the visual features of the
video are encoded using 3D convolutional neural network (C3D) and in the
decoding phase two Long Short Term Memory (LSTM) recurrent networks are used in
which visual features and input captions are fused separately and final output
is generated by performing element-wise product between the output of both
LSTMs. Our model is able to achieve BLEU scores of 0.20 and 0.22 on public and
private test data sets respectively.
- Abstract(参考訳): ビデオキャプションは、ビデオの内容、イベント、アクションを短いテキスト形式で要約するプロセスであり、ビデオガイド機械翻訳、ビデオ感情分析、必要な個人への支援など、多くの研究領域で役立つ。
本稿では,VATEX-2020ビデオキャプションチャレンジに使用されるフレームワークのシステム記述について述べる。
3次元畳み込みニューラルネットワーク(c3d)を用いて映像の視覚的特徴を符号化するエンコーダ・デコーダベースの手法を採用し、デコードフェーズでは2つの長短記憶(lstm)リカレントネットワークを用いて、視覚特徴と入力キャプションを別々に融合し、両lstmの出力間で要素的に生成することにより最終的な出力を生成する。
公開テストデータセットとプライベートテストデータセットでそれぞれ0.20と0.22のbleuスコアを達成できる。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - An optimized Capsule-LSTM model for facial expression recognition with
video sequences [0.0]
このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。
MMIデータセットによる実験結果から,Capsule-LSTMモデルは映像表現認識の精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2021-05-27T10:08:05Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。