論文の概要: End-to-end Multi-modal Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2107.05624v1
- Date: Mon, 12 Jul 2021 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:56:05.398169
- Title: End-to-end Multi-modal Video Temporal Grounding
- Title(参考訳): エンド・ツー・エンドマルチモーダルビデオテンポラリグリング
- Authors: Yi-Wen Chen, Yi-Hsuan Tsai, Ming-Hsuan Yang
- Abstract要約: ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
- 参考スコア(独自算出の注目度): 105.36814858748285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of text-guided video temporal grounding, which aims to
identify the time interval of certain event based on a natural language
description. Different from most existing methods that only consider RGB images
as visual features, we propose a multi-modal framework to extract complementary
information from videos. Specifically, we adopt RGB images for appearance,
optical flow for motion, and depth maps for image structure. While RGB images
provide abundant visual cues of certain event, the performance may be affected
by background clutters. Therefore, we use optical flow to focus on large motion
and depth maps to infer the scene configuration when the action is related to
objects recognizable with their shapes. To integrate the three modalities more
effectively and enable inter-modal learning, we design a dynamic fusion scheme
with transformers to model the interactions between modalities. Furthermore, we
apply intra-modal self-supervised learning to enhance feature representations
across videos for each modality, which also facilitates multi-modal learning.
We conduct extensive experiments on the Charades-STA and ActivityNet Captions
datasets, and show that the proposed method performs favorably against
state-of-the-art approaches.
- Abstract(参考訳): 自然言語記述に基づいて特定の事象の時間間隔を識別することを目的とした,テキスト誘導ビデオの時間的接地問題に対処する。
rgb画像のみを視覚的特徴として扱う既存の手法と異なり,ビデオから補完的情報を抽出するマルチモーダルフレームワークを提案する。
具体的には,外観にrgb画像,動画像に光学フロー,画像構造に深度マップを適用する。
rgb画像は特定のイベントの豊富な視覚的手がかりを提供するが、パフォーマンスは背景クラッタに影響される可能性がある。
そこで,我々は光学フローを用いて大きな動きと奥行きマップに着目し,その動作が物体の形状と関係している場合のシーン構成を推定する。
3つのモーダルをより効率的に統合し、モーダル間学習を可能にするために、モーダル間の相互作用をモデル化するトランスフォーマーを用いた動的融合スキームを設計する。
さらに,モダリティ毎にビデオ間の特徴表現を強化するために,モダリティ内自己教師付き学習を適用することにより,マルチモダリティ学習も容易になる。
本稿では,Charades-STAおよびActivityNet Captionsデータセットに関する広範な実験を行い,提案手法が最先端のアプローチに対して良好に動作することを示す。
関連論文リスト
- CrossVideoMAE: Self-Supervised Image-Video Representation Learning with Masked Autoencoders [6.159948396712944]
CrossVideoMAEはビデオレベルとフレームレベルのリッチテンポラル表現とセマンティック属性の両方を学ぶ。
提案手法は,ビデオからの時間的情報とサンプルフレームからの空間的情報を統合する。
これは、ビデオおよびフレーム画像のモダリティから、リッチでラベルなしなガイド信号の自己教師型取得に不可欠である。
論文 参考訳(メタデータ) (2025-02-08T06:15:39Z) - Zero-Shot Novel View and Depth Synthesis with Multi-View Geometric Diffusion [27.836518920611557]
本稿では,新しい視点から画像や深度マップを直接生成できる拡散型アーキテクチャMVGDを紹介する。
このモデルは、公開データセットから6000万以上のマルチビューサンプルを収集した上でトレーニングします。
複数の新しいビュー合成ベンチマーク、マルチビューステレオおよびビデオ深度推定における最先端結果について報告する。
論文 参考訳(メタデータ) (2025-01-30T23:43:06Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Neural Radiance Flow for 4D View Synthesis and Video Processing [59.9116932930108]
本稿では,RGB画像から動的シーンの4次元空間時空間表現を学習する手法を提案する。
私たちのアプローチの鍵は、シーンの3D占有率、輝度、およびダイナミクスをキャプチャすることを学ぶ神経暗黙表現を使用することです。
論文 参考訳(メタデータ) (2020-12-17T17:54:32Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。