論文の概要: Spatio-Temporal Ranked-Attention Networks for Video Captioning
- arxiv url: http://arxiv.org/abs/2001.06127v1
- Date: Fri, 17 Jan 2020 01:00:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-10 12:38:51.452951
- Title: Spatio-Temporal Ranked-Attention Networks for Video Captioning
- Title(参考訳): ビデオキャプションのための時空間ランク付きアテンションネットワーク
- Authors: Anoop Cherian, Jue Wang, Chiori Hori, Tim K. Marks
- Abstract要約: 2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 34.05025890230047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating video descriptions automatically is a challenging task that
involves a complex interplay between spatio-temporal visual features and
language models. Given that videos consist of spatial (frame-level) features
and their temporal evolutions, an effective captioning model should be able to
attend to these different cues selectively. To this end, we propose a
Spatio-Temporal and Temporo-Spatial (STaTS) attention model which, conditioned
on the language state, hierarchically combines spatial and temporal attention
to videos in two different orders: (i) a spatio-temporal (ST) sub-model, which
first attends to regions that have temporal evolution, then temporally pools
the features from these regions; and (ii) a temporo-spatial (TS) sub-model,
which first decides a single frame to attend to, then applies spatial attention
within that frame. We propose a novel LSTM-based temporal ranking function,
which we call ranked attention, for the ST model to capture action dynamics.
Our entire framework is trained end-to-end. We provide experiments on two
benchmark datasets: MSVD and MSR-VTT. Our results demonstrate the synergy
between the ST and TS modules, outperforming recent state-of-the-art methods.
- Abstract(参考訳): ビデオ記述の自動生成は、時空間的視覚特徴と言語モデルとの複雑な相互作用を伴う困難なタスクである。
ビデオは空間的(フレームレベルの)特徴とその時間的進化から成り立っているので、効果的なキャプションモデルはこれらの異なるキューに選択的に出席することができる。
そこで,本稿では,時空間的・時空間的注意を2つの異なる順序で階層的に結合した,時空間的・時空間的注意モデルを提案する。
一 時空間進化のある地域を最初に参画し、その地域の特徴を時空間的にプールする時空間(ST)サブモデル
(ii)まず1つのフレームが出席することを決定したテンポロ空間(ts)サブモデルが、そのフレーム内に空間的注意を配置する。
本稿では,SSTモデルが動作動態を捉えるために,新たなLSTMに基づく時間的ランク付け関数を提案する。
フレームワーク全体がエンドツーエンドでトレーニングされています。
我々はMSVDとMSR-VTTという2つのベンチマークデータセットの実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
関連論文リスト
- Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。