論文の概要: Exploiting long-term temporal dynamics for video captioning
- arxiv url: http://arxiv.org/abs/2202.10828v1
- Date: Tue, 22 Feb 2022 11:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 16:22:13.706285
- Title: Exploiting long-term temporal dynamics for video captioning
- Title(参考訳): ビデオキャプションにおける長期時間ダイナミクスの活用
- Authors: Yuyu Guo, Jingqiu Zhang, Lianli Gao
- Abstract要約: 本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 40.15826846670479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically describing videos with natural language is a fundamental
challenge for computer vision and natural language processing. Recently,
progress in this problem has been achieved through two steps: 1) employing 2-D
and/or 3-D Convolutional Neural Networks (CNNs) (e.g. VGG, ResNet or C3D) to
extract spatial and/or temporal features to encode video contents; and 2)
applying Recurrent Neural Networks (RNNs) to generate sentences to describe
events in videos. Temporal attention-based model has gained much progress by
considering the importance of each video frame. However, for a long video,
especially for a video which consists of a set of sub-events, we should
discover and leverage the importance of each sub-shot instead of each frame. In
this paper, we propose a novel approach, namely temporal and spatial LSTM
(TS-LSTM), which systematically exploits spatial and temporal dynamics within
video sequences. In TS-LSTM, a temporal pooling LSTM (TP-LSTM) is designed to
incorporate both spatial and temporal information to extract long-term temporal
dynamics within video sub-shots; and a stacked LSTM is introduced to generate a
list of words to describe the video. Experimental results obtained in two
public video captioning benchmarks indicate that our TS-LSTM outperforms the
state-of-the-art methods.
- Abstract(参考訳): 自然言語によるビデオの自動記述は、コンピュータビジョンと自然言語処理の基本的な課題である。
近年,この問題の進展は2つのステップによって達成されている。
1)2次元及び/または3次元畳み込みニューラルネットワーク(例えば、VGG、ResNet、C3D)を用いて、映像コンテンツをエンコードするための空間的・時間的特徴を抽出する。
2)リカレントニューラルネットワーク(RNN)を用いてビデオ中のイベントを記述する文を生成する。
時間的注意に基づくモデルは,各映像フレームの重要性を考慮し,大きな進歩を遂げている。
しかし、長いビデオ、特に一連のサブイベントからなるビデオの場合、各フレームの代わりに各サブショットの重要性を発見し、活用する必要がある。
本稿では,時間的および空間的LSTM(TS-LSTM)という,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する手法を提案する。
TS-LSTMでは、時間プーリングLSTM(TP-LSTM)は、ビデオサブショット内の時間的時間的ダイナミクスを抽出するために、空間的情報と時間的情報の両方を統合するように設計されている。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていた。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Learning to Combine the Modalities of Language and Video for Temporal
Moment Localization [4.203274985072923]
時間的モーメントローカライゼーションは、クエリによって指定されたモーメントにマッチする最適なビデオセグメントを検索することを目的としている。
本稿では,時間的モーメントを局所化する認知過程を模倣して,新たな繰り返し単位であるクロスモーダル長短期記憶(CM-LSTM)を導入する。
また、入出力クエリーにより、入出力された映像特徴と未入出力映像特徴の両方に対する2ストリームの注意機構を考案し、必要な視覚情報が無視されるのを防ぐ。
論文 参考訳(メタデータ) (2021-09-07T08:25:45Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation [29.00635219317848]
本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:08:15Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。