論文の概要: NITS-VC System for VATEX Video Captioning Challenge 2020
- arxiv url: http://arxiv.org/abs/2006.04058v2
- Date: Fri, 25 Sep 2020 14:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:13:52.728561
- Title: NITS-VC System for VATEX Video Captioning Challenge 2020
- Title(参考訳): VATEX Video Captioning Challenge 2020のためのNITS-VCシステム
- Authors: Alok Singh, Thoudam Doren Singh and Sivaji Bandyopadhyay
- Abstract要約: ビデオの視覚的特徴を3次元畳み込みニューラルネットワーク(C3D)を用いて符号化するエンコーダデコーダに基づく手法を用いる。
我々のモデルは、それぞれ公開テストデータセットとプライベートテストデータセットでBLEUスコア0.20と0.22を達成することができる。
- 参考スコア(独自算出の注目度): 16.628598778804403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning is process of summarising the content, event and action of
the video into a short textual form which can be helpful in many research areas
such as video guided machine translation, video sentiment analysis and
providing aid to needy individual. In this paper, a system description of the
framework used for VATEX-2020 video captioning challenge is presented. We
employ an encoder-decoder based approach in which the visual features of the
video are encoded using 3D convolutional neural network (C3D) and in the
decoding phase two Long Short Term Memory (LSTM) recurrent networks are used in
which visual features and input captions are fused separately and final output
is generated by performing element-wise product between the output of both
LSTMs. Our model is able to achieve BLEU scores of 0.20 and 0.22 on public and
private test data sets respectively.
- Abstract(参考訳): ビデオキャプションは、ビデオの内容、イベント、アクションを短いテキスト形式で要約するプロセスであり、ビデオガイド機械翻訳、ビデオ感情分析、必要な個人への支援など、多くの研究領域で役立つ。
本稿では,VATEX-2020ビデオキャプションチャレンジに使用されるフレームワークのシステム記述について述べる。
3次元畳み込みニューラルネットワーク(c3d)を用いて映像の視覚的特徴を符号化するエンコーダ・デコーダベースの手法を採用し、デコードフェーズでは2つの長短記憶(lstm)リカレントネットワークを用いて、視覚特徴と入力キャプションを別々に融合し、両lstmの出力間で要素的に生成することにより最終的な出力を生成する。
公開テストデータセットとプライベートテストデータセットでそれぞれ0.20と0.22のbleuスコアを達成できる。
関連論文リスト
- Text-Conditioned Resampler For Long Form Video Understanding [101.7267777444705]
タスクの長いビデオシーケンスを処理するために,テキスト条件付きビデオリサンプラー(TCR)モジュールを提案する。
TCRは、テキスト条件が与えられたビデオから関連する視覚的特徴をローカライズし、テキスト応答を生成するために大きな言語モデルを提供する。
軽量な設計とクロスアテンションの使用により、TCRは100フレーム以上を一度に処理できるため、以前の作品よりもずっと長いビデオのチャンクを使用することができる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - VideoAssembler: Identity-Consistent Video Generation with Reference
Entities using Diffusion Model [97.99027412399198]
VideoAssemblerは、アイデンティティ一貫性のあるビデオ生成のためのエンドツーエンドフレームワークである。
VideoAssemblerは、入力参照エンティティに対してフレキシブルなビデオを作成することに長けている。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video
Captioning [0.0]
本研究は,ビデオデータのテキストキャプションへの多対多マッピングを実現するために,エンコーダ・デコーダモデルの実装と利用を実証する。
多対多のマッピングは、ビデオフレームの入力時間シーケンスから、単語の出力シーケンスを経て、キャプション文を形成する。
論文 参考訳(メタデータ) (2023-10-02T02:32:26Z) - Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval [24.691270610091554]
本稿では,ビデオから意味的に強調された表現を純粋に学習し,ビデオ表現をオフラインで計算し,異なるテキストに対して再利用することを目的とする。
MSR-VTT, MSVD, LSMDCの3つのベンチマークデータセット上で, 最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-08-15T08:54:25Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - An optimized Capsule-LSTM model for facial expression recognition with
video sequences [0.0]
このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。
MMIデータセットによる実験結果から,Capsule-LSTMモデルは映像表現認識の精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2021-05-27T10:08:05Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。