論文の概要: Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos
- arxiv url: http://arxiv.org/abs/2007.14164v1
- Date: Tue, 28 Jul 2020 12:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:29:02.354037
- Title: Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos
- Title(参考訳): ビデオにおける時間的文定位とイベントキャプションの学習モードインタラクション
- Authors: Shaoxiang Chen, Wenhao Jiang, Wei Liu, Yu-Gang Jiang
- Abstract要約: そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 76.21297023629589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically generating sentences to describe events and temporally
localizing sentences in a video are two important tasks that bridge language
and videos. Recent techniques leverage the multimodal nature of videos by using
off-the-shelf features to represent videos, but interactions between modalities
are rarely explored. Inspired by the fact that there exist cross-modal
interactions in the human brain, we propose a novel method for learning
pairwise modality interactions in order to better exploit complementary
information for each pair of modalities in videos and thus improve performances
on both tasks. We model modality interaction in both the sequence and channel
levels in a pairwise fashion, and the pairwise interaction also provides some
explainability for the predictions of target tasks. We demonstrate the
effectiveness of our method and validate specific design choices through
extensive ablation studies. Our method turns out to achieve state-of-the-art
performances on four standard benchmark datasets: MSVD and MSR-VTT (event
captioning task), and Charades-STA and ActivityNet Captions (temporal sentence
localization task).
- Abstract(参考訳): イベントを記述するための文の自動生成と、ビデオ内の文章の一時的なローカライズは、言語とビデオを橋渡しする2つの重要なタスクである。
近年,ビデオのマルチモーダル性を利用してビデオを表現する手法が提案されているが,モダリティ間の相互作用はめったに研究されていない。
人間の脳にクロスモーダルな相互作用が存在するという事実に触発されて,ビデオ内の各モダリティの相補的情報をうまく活用し,両タスクにおけるパフォーマンスを向上させるために,ペアワイズモダリティ相互作用を学習する新しい手法を提案する。
我々は,シーケンスレベルとチャネルレベルの両方のモード間相互作用をペアワイズにモデル化し,そのペアワイズ相互作用は対象タスクの予測にいくつかの説明可能性を与える。
本手法の有効性を実証し,広範囲なアブレーション実験により特定の設計選択を検証した。
提案手法は,MSVD と MSR-VTT (イベントキャプションタスク) と Charades-STA と ActivityNet Captions (時間文ローカライゼーションタスク) の4つの標準ベンチマークデータセットに対して,最先端のパフォーマンスを実現する。
関連論文リスト
- CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。