論文の概要: Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language
- arxiv url: http://arxiv.org/abs/2012.02646v1
- Date: Fri, 4 Dec 2020 15:09:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 20:40:06.156941
- Title: Multi-Scale 2D Temporal Adjacent Networks for Moment Localization with
Natural Language
- Title(参考訳): 自然言語を用いたモーメントローカライゼーションのためのマルチスケール2次元隣接ネットワーク
- Authors: Songyang Zhang, Houwen Peng, Jianlong Fu, Yijuan Lu, Jiebo Luo
- Abstract要約: 自然言語による未編集映像から特定の瞬間を検索する問題に対処する。
我々は、時間スケールの異なる2次元マップのセットを用いて、ビデオモーメント間の時間的文脈をモデル化する。
モーメントローカライゼーションのためのシングルショットフレームワークであるMS-2D-TAN(Multi-Scale Temporal Adjacent Network)を提案する。
- 参考スコア(独自算出の注目度): 112.32586622873731
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of retrieving a specific moment from an untrimmed
video by natural language. It is a challenging problem because a target moment
may take place in the context of other temporal moments in the untrimmed video.
Existing methods cannot tackle this challenge well since they do not fully
consider the temporal contexts between temporal moments. In this paper, we
model the temporal context between video moments by a set of predefined
two-dimensional maps under different temporal scales. For each map, one
dimension indicates the starting time of a moment and the other indicates the
duration. These 2D temporal maps can cover diverse video moments with different
lengths, while representing their adjacent contexts at different temporal
scales. Based on the 2D temporal maps, we propose a Multi-Scale Temporal
Adjacent Network (MS-2D-TAN), a single-shot framework for moment localization.
It is capable of encoding the adjacent temporal contexts at each scale, while
learning discriminative features for matching video moments with referring
expressions. We evaluate the proposed MS-2D-TAN on three challenging
benchmarks, i.e., Charades-STA, ActivityNet Captions, and TACoS, where our
MS-2D-TAN outperforms the state of the art.
- Abstract(参考訳): 自然言語による未検索の映像から特定の瞬間を検索する問題に対処する。
ターゲットモーメントは、未トリミングビデオの他の時間モーメントの文脈で発生する可能性があるため、これは難しい問題である。
既存の手法では、時間的モーメント間の時間的コンテキストを十分に考慮していないため、この課題にうまく取り組めない。
本稿では,ビデオモーメント間の時間的文脈を,時間スケールの異なる2次元マップのセットでモデル化する。
各地図について、1次元はモーメントの開始時刻を示し、もう1次元は時間を示す。
これらの2dテンポラリマップは、異なる長さの様々なビデオモーメントをカバーでき、隣接するコンテキストを異なるテンポラリスケールで表現することができる。
モーメントローカライゼーションのためのシングルショットフレームワークであるMS-2D-TAN(Multi-Scale Temporal Adjacent Network)を提案する。
ビデオモーメントと参照表現をマッチングする識別特徴を学習しながら、隣接する時間的文脈を各スケールで符号化することができる。
提案したMS-2D-TANを,Charades-STA,ActivityNet Captions,TACoSの3つの挑戦的ベンチマークで評価した。
関連論文リスト
- TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。
ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。
GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Multi-scale 2D Representation Learning for weakly-supervised moment
retrieval [18.940164141627914]
弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習法を提案する。
具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。
学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。
論文 参考訳(メタデータ) (2021-11-04T10:48:37Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z) - Spatio-Temporal Ranked-Attention Networks for Video Captioning [34.05025890230047]
2つの異なる順序でビデオに対する空間的および時間的注意を結合するモデルを提案する。
我々は、MSVDとMSR-VTTの2つのベンチマークデータセットについて実験を行った。
この結果,STモジュールとTSモジュールの相乗効果は最近の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2020-01-17T01:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。