論文の概要: Diverse Video Captioning by Adaptive Spatio-temporal Attention
- arxiv url: http://arxiv.org/abs/2208.09266v1
- Date: Fri, 19 Aug 2022 11:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:12:32.883389
- Title: Diverse Video Captioning by Adaptive Spatio-temporal Attention
- Title(参考訳): 適応時空間的注意による多様な映像キャプション
- Authors: Zohreh Ghaderi, Leonard Salewski, Hendrik P. A. Lensch
- Abstract要約: エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
- 参考スコア(独自算出の注目度): 7.96569366755701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To generate proper captions for videos, the inference needs to identify
relevant concepts and pay attention to the spatial relationships between them
as well as to the temporal development in the clip. Our end-to-end
encoder-decoder video captioning framework incorporates two transformer-based
architectures, an adapted transformer for a single joint spatio-temporal video
analysis as well as a self-attention-based decoder for advanced text
generation. Furthermore, we introduce an adaptive frame selection scheme to
reduce the number of required incoming frames while maintaining the relevant
content when training both transformers. Additionally, we estimate semantic
concepts relevant for video captioning by aggregating all ground truth captions
of each sample. Our approach achieves state-of-the-art results on the MSVD, as
well as on the large-scale MSR-VTT and the VATEX benchmark datasets considering
multiple Natural Language Generation (NLG) metrics. Additional evaluations on
diversity scores highlight the expressiveness and diversity in the structure of
our generated captions.
- Abstract(参考訳): ビデオの適切なキャプションを生成するには、関連する概念を特定し、それらの間の空間的関係と、クリップの時間的発展に注意を払う必要がある。
エンドツーエンドエンコーダ・デコーダビデオキャプションフレームワークは,2つのトランスフォーマベースのアーキテクチャと,1つのジョイント時空間ビデオ解析に適応したトランスフォーマと,高度なテキスト生成のためのセルフアテンションベースのデコーダを組み込んでいる。
さらに,両変圧器を訓練する際の関連コンテンツを維持しつつ,必要なフレーム数を削減する適応フレーム選択方式を提案する。
さらに,ビデオキャプションに関連する意味概念を,各サンプルのすべての真実キャプションを集約することで推定する。
提案手法は,複数の自然言語生成(NLG)指標を考慮した大規模MSR-VTTおよびVATEXベンチマークデータセットと同様に,MSVDの最先端結果を実現する。
多様性スコアに関するさらなる評価は、生成されたキャプションの構造における表現性と多様性を強調している。
関連論文リスト
- TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Set Prediction Guided by Semantic Concepts for Diverse Video Captioning [47.89731738027379]
我々は、多種多様なキャプションを意味概念に基づく集合予測問題に定式化する。
モデルが意味的に多様なキャプションを生成することを奨励するために,概念に多様性規則化用語を適用した。
提案モデルでは,妥当性と多様性の両指標を用いて,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T13:13:04Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。