論文の概要: Span-based Localizing Network for Natural Language Video Localization
- arxiv url: http://arxiv.org/abs/2004.13931v2
- Date: Sun, 14 Jun 2020 08:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:40:30.808493
- Title: Span-based Localizing Network for Natural Language Video Localization
- Title(参考訳): 自然言語ビデオローカライズのためのスパンベースローカライズネットワーク
- Authors: Hao Zhang, Aixin Sun, Wei Jing, Joey Tianyi Zhou
- Abstract要約: 非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。
NLVLに対処するビデオスパンローカライズネットワーク(VSLNet)を提案する。
- 参考スコア(独自算出の注目度): 60.54191298092136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an untrimmed video and a text query, natural language video
localization (NLVL) is to locate a matching span from the video that
semantically corresponds to the query. Existing solutions formulate NLVL either
as a ranking task and apply multimodal matching architecture, or as a
regression task to directly regress the target video span. In this work, we
address NLVL task with a span-based QA approach by treating the input video as
text passage. We propose a video span localizing network (VSLNet), on top of
the standard span-based QA framework, to address NLVL. The proposed VSLNet
tackles the differences between NLVL and span-based QA through a simple yet
effective query-guided highlighting (QGH) strategy. The QGH guides VSLNet to
search for matching video span within a highlighted region. Through extensive
experiments on three benchmark datasets, we show that the proposed VSLNet
outperforms the state-of-the-art methods; and adopting span-based QA framework
is a promising direction to solve NLVL.
- Abstract(参考訳): 非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。
既存のソリューションは、ランキングタスクとしてNLVLを定式化し、マルチモーダルマッチングアーキテクチャを適用するか、あるいは、ターゲットのビデオスパンを直接回帰する回帰タスクとして使用する。
本研究では,入力ビデオをテキストパスとして扱うことで,NLVLタスクをスパンベースのQAアプローチで処理する。
NLVLに対処するために,標準のスパンベースQAフレームワーク上にビデオスパンローカライズネットワーク(VSLNet)を提案する。
提案したVSLNetは、単純なクエリ誘導ハイライト(QGH)戦略により、NLVLとスパンベースのQAの違いに対処する。
QGHはVSLNetをガイドし、ハイライトされた領域内のマッチングビデオスパンを検索する。
3つのベンチマークデータセットに関する広範な実験を通して、提案したVSLNetは最先端の手法よりも優れており、スパンベースのQAフレームワークを採用することがNLVLを解決するための有望な方向であることを示す。
関連論文リスト
- VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - Natural Language Video Localization: A Revisit in Span-based Question
Answering Framework [56.649826885121264]
自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。
既存のアプローチは主にコンピュータビジョンの観点からNLVL問題を解く。
入力ビデオをテキストパスとして扱うことにより,NLVLを新たな視点,すなわちスパンベース質問応答(QA)に対処する。
論文 参考訳(メタデータ) (2021-02-26T15:57:59Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。