論文の概要: Variational Stacked Local Attention Networks for Diverse Video
Captioning
- arxiv url: http://arxiv.org/abs/2201.00985v1
- Date: Tue, 4 Jan 2022 05:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 20:39:45.436593
- Title: Variational Stacked Local Attention Networks for Diverse Video
Captioning
- Title(参考訳): 多様なビデオキャプションのための変動重畳ローカルアテンションネットワーク
- Authors: Tonmoay Deb, Akib Sadmanee, Kishor Kumar Bhaumik, Amin Ahsan Ali, M
Ashraful Amin, A K M Mahbubur Rahman
- Abstract要約: 変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
- 参考スコア(独自算出の注目度): 2.492343817244558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While describing Spatio-temporal events in natural language, video captioning
models mostly rely on the encoder's latent visual representation. Recent
progress on the encoder-decoder model attends encoder features mainly in linear
interaction with the decoder. However, growing model complexity for visual data
encourages more explicit feature interaction for fine-grained information,
which is currently absent in the video captioning domain. Moreover, feature
aggregations methods have been used to unveil richer visual representation,
either by the concatenation or using a linear layer. Though feature sets for a
video semantically overlap to some extent, these approaches result in objective
mismatch and feature redundancy. In addition, diversity in captions is a
fundamental component of expressing one event from several meaningful
perspectives, currently missing in the temporal, i.e., video captioning domain.
To this end, we propose Variational Stacked Local Attention Network (VSLAN),
which exploits low-rank bilinear pooling for self-attentive feature interaction
and stacking multiple video feature streams in a discount fashion. Each feature
stack's learned attributes contribute to our proposed diversity encoding
module, followed by the decoding query stage to facilitate end-to-end diverse
and natural captions without any explicit supervision on attributes. We
evaluate VSLAN on MSVD and MSR-VTT datasets in terms of syntax and diversity.
The CIDEr score of VSLAN outperforms current off-the-shelf methods by $7.8\%$
on MSVD and $4.5\%$ on MSR-VTT, respectively. On the same datasets, VSLAN
achieves competitive results in caption diversity metrics.
- Abstract(参考訳): 時空間事象を自然言語で記述する一方で、ビデオキャプションモデルはエンコーダの潜在視覚表現に依存している。
エンコーダ-デコーダモデルの最近の進歩は、主にデコーダとの線形相互作用においてエンコーダの特徴に付随する。
しかしながら、視覚データに対するモデル複雑さの増大は、ビデオキャプション領域に現在存在しない、きめ細かい情報に対するより明示的な特徴相互作用を促進する。
さらに、特徴集約法は、連結または線形層を用いて、よりリッチな視覚表現を明らかにするために使われてきた。
ビデオの機能セットは意味論的にある程度重複するが、これらのアプローチは客観的なミスマッチと特徴冗長性をもたらす。
加えて、キャプションの多様性は、いくつかの意味ある視点から1つのイベントを表現する基本的な要素であり、現在は時間的、すなわちビデオキャプション領域に欠けている。
そこで本研究では,低ランクな双線形プールによる自己注意的特徴の相互作用と,複数のビデオ特徴ストリームを割引方式で積み重ねたVSLANを提案する。
各特徴スタックの学習属性は、提案した多様性符号化モジュールに寄与し、続いてデコードクエリステージにより、属性を明示的に監視することなく、エンドツーエンドの多様な自然なキャプションを容易にする。
構文および多様性の観点から,MSVDおよびMSR-VTTデータセット上でVSLANを評価する。
VSLANのCIDErスコアは、MSVDでは7.8 %、MSR-VTTでは4.5 %である。
同じデータセット上で、VSLANはキャプションの多様性メトリクスで競合する結果を達成する。
関連論文リスト
- EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。