Fugu-MT 論文翻訳(概要): Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

論文の概要: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos

arxiv url: http://arxiv.org/abs/2007.14164v1
Date: Tue, 28 Jul 2020 12:40:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-06 02:29:02.354037
Title: Learning Modality Interaction for Temporal Sentence Localization and Event Captioning in Videos
Title（参考訳）: ビデオにおける時間的文定位とイベントキャプションの学習モードインタラクション
Authors: Shaoxiang Chen, Wenhao Jiang, Wei Liu, Yu-Gang Jiang
Abstract要約: そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
参考スコア（独自算出の注目度）: 76.21297023629589
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically generating sentences to describe events and temporally localizing sentences in a video are two important tasks that bridge language and videos. Recent techniques leverage the multimodal nature of videos by using off-the-shelf features to represent videos, but interactions between modalities are rarely explored. Inspired by the fact that there exist cross-modal interactions in the human brain, we propose a novel method for learning pairwise modality interactions in order to better exploit complementary information for each pair of modalities in videos and thus improve performances on both tasks. We model modality interaction in both the sequence and channel levels in a pairwise fashion, and the pairwise interaction also provides some explainability for the predictions of target tasks. We demonstrate the effectiveness of our method and validate specific design choices through extensive ablation studies. Our method turns out to achieve state-of-the-art performances on four standard benchmark datasets: MSVD and MSR-VTT (event captioning task), and Charades-STA and ActivityNet Captions (temporal sentence localization task).
Abstract（参考訳）: イベントを記述するための文の自動生成と、ビデオ内の文章の一時的なローカライズは、言語とビデオを橋渡しする2つの重要なタスクである。近年,ビデオのマルチモーダル性を利用してビデオを表現する手法が提案されているが,モダリティ間の相互作用はめったに研究されていない。人間の脳にクロスモーダルな相互作用が存在するという事実に触発されて,ビデオ内の各モダリティの相補的情報をうまく活用し,両タスクにおけるパフォーマンスを向上させるために,ペアワイズモダリティ相互作用を学習する新しい手法を提案する。我々は,シーケンスレベルとチャネルレベルの両方のモード間相互作用をペアワイズにモデル化し,そのペアワイズ相互作用は対象タスクの予測にいくつかの説明可能性を与える。本手法の有効性を実証し,広範囲なアブレーション実験により特定の設計選択を検証した。提案手法は,MSVD と MSR-VTT (イベントキャプションタスク) と Charades-STA と ActivityNet Captions (時間文ローカライゼーションタスク) の4つの標準ベンチマークデータセットに対して,最先端のパフォーマンスを実現する。

関連論文リスト

Hierarchical Relation-augmented Representation Generalization for Few-shot Action Recognition [53.02634128715853]
Few-shot Action Recognition (FSAR) は、新しいアクションカテゴリーをほとんど見ない形で認識することを目的としている。 FSARのための階層的関係強化表現一般化フレームワークHR2G-shotを提案する。 3種類の関係モデリング(フレーム間、ビデオ間、タスク間)を統合し、全体的視点からタスク固有の時間パターンを学習する。
論文参考訳（メタデータ） (2025-04-14T10:23:22Z)
V$^2$Dial: Unification of Video and Visual Dialog via Multimodal Experts [44.33388344586592]
V$2$Dialは、マルチモーダルな会話タスクのための画像とビデオの入力データを同時に扱うための、エキスパートベースの新しいモデルである。本稿では,画像とビデオの空間的特徴と時間的特徴を共同で学習する単一モデルを用いて,両方のタスクを統合することを提案する。
論文参考訳（メタデータ） (2025-03-03T21:27:38Z)
Multi-Modal interpretable automatic video captioning [1.9874264019909988]
マルチモーダル・コントラッシブ・ロスを訓練した新しいビデオキャプション手法を提案する。我々のアプローチは、これらのモダリティ間の依存関係を捉えるために設計されており、その結果、より正確で、従って関連するキャプションとなる。
論文参考訳（メタデータ） (2024-11-11T11:12:23Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文参考訳（メタデータ） (2021-11-01T15:27:35Z)
Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文参考訳（メタデータ） (2021-10-31T07:13:34Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。