論文の概要: PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and
Multi-Head Decoding for Dense Video Captioning
- arxiv url: http://arxiv.org/abs/2207.02583v1
- Date: Wed, 6 Jul 2022 10:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:54:30.420286
- Title: PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and
Multi-Head Decoding for Dense Video Captioning
- Title(参考訳): pic 4th challenge: マルチ機能エンコーディングとマルチヘッドデコードによる高精細ビデオキャプション
- Authors: Yifan Lu, Ziqi Zhang, Yuxin Chen, Chunfeng Yuan, Bing Li, Weiming Hu
- Abstract要約: 本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。
本手法は,評価中のYouMakeupデータセットの大幅な改善を実現する。
- 参考スコア(独自算出の注目度): 46.69503728433432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Dense Video Captioning (DVC) aims to generate captions with
timestamps for multiple events in one video. Semantic information plays an
important role for both localization and description of DVC. We present a
semantic-assisted dense video captioning model based on the encoding-decoding
framework. In the encoding stage, we design a concept detector to extract
semantic information, which is then fused with multi-modal visual features to
sufficiently represent the input video. In the decoding stage, we design a
classification head, paralleled with the localization and captioning heads, to
provide semantic supervision. Our method achieves significant improvements on
the YouMakeup dataset under DVC evaluation metrics and achieves high
performance in the Makeup Dense Video Captioning (MDVC) task of PIC 4th
Challenge.
- Abstract(参考訳): Dense Video Captioning (DVC) のタスクは、複数のイベントのタイムスタンプ付きキャプションを生成することを目的としている。
意味情報はDVCのローカライゼーションと記述において重要な役割を果たしている。
本稿では,符号化・復号化フレームワークに基づく意味支援型高密度ビデオキャプションモデルを提案する。
符号化段階では,意味情報を抽出する概念検出器を設計し,その情報にマルチモーダルな視覚的特徴を融合させて入力映像を十分に表現する。
復号化の段階では,局所化とキャプション化に並行した分類ヘッドを設計し,意味的監督を行う。
提案手法は,DVC評価基準下でのYouMakeupデータセットの大幅な改善を実現し,PIC 4th ChallengeのMakeup Dense Video Captioning(MDVC)タスクにおいて高い性能を実現する。
関連論文リスト
- Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MAViC: Multimodal Active Learning for Video Captioning [8.454261564411436]
本稿では,映像キャプションにおけるアクティブな学習手法の課題に対処するためにMAViCを紹介する。
本手法は,獲得関数における視覚的,言語的両次元のセマンティックな類似性と不確実性を統合する。
論文 参考訳(メタデータ) (2022-12-11T18:51:57Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Variational Stacked Local Attention Networks for Diverse Video
Captioning [2.492343817244558]
変動重畳ローカルアテンションネットワークは、低ランク双線形プールを自己注意的特徴相互作用に活用する。
構文と多様性の観点から,MSVD と MSR-VTT のデータセット上で VSLAN を評価する。
論文 参考訳(メタデータ) (2022-01-04T05:14:34Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - Visual-aware Attention Dual-stream Decoder for Video Captioning [12.139806877591212]
現在のビデオキャプション方式の注意機構は、各フレームに重みを割り当てることを学び、デコーダを動的に推進する。
これは、シーケンスフレームで抽出された視覚的特徴の相関と時間的コヒーレンスを明示的にモデル化するものではない。
本稿では,単語の時間的シーケンスフレームの変化を前回のモーメントで統一する,新しい視覚認識注意(VA)モデルを提案する。
VADD(Visual-Aware Attention Dual-stream Decoder)の有効性を示す。
論文 参考訳(メタデータ) (2021-10-16T14:08:20Z) - End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。
PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。
ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文 参考訳(メタデータ) (2021-08-17T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。