論文の概要: Natural Language Video Localization: A Revisit in Span-based Question
Answering Framework
- arxiv url: http://arxiv.org/abs/2102.13558v3
- Date: Tue, 2 Mar 2021 09:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 11:58:53.540150
- Title: Natural Language Video Localization: A Revisit in Span-based Question
Answering Framework
- Title(参考訳): 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考
- Authors: Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick
Siow Mong Goh
- Abstract要約: 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。
既存のアプローチは主にコンピュータビジョンの観点からNLVL問題を解く。
入力ビデオをテキストパスとして扱うことにより,NLVLを新たな視点,すなわちスパンベース質問応答(QA)に対処する。
- 参考スコア(独自算出の注目度): 56.649826885121264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Video Localization (NLVL) aims to locate a target moment
from an untrimmed video that semantically corresponds to a text query. Existing
approaches mainly solve the NLVL problem from the perspective of computer
vision by formulating it as ranking, anchor, or regression tasks. These methods
suffer from large performance degradation when localizing on long videos. In
this work, we address the NLVL from a new perspective, i.e., span-based
question answering (QA), by treating the input video as a text passage. We
propose a video span localizing network (VSLNet), on top of the standard
span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the
differences between NLVL and span-based QA through a simple yet effective
query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the
matching video span within a highlighted region. To address the performance
degradation on long videos, we further extend VSLNet to VSLNet-L by applying a
multi-scale split-and-concatenation strategy. VSLNet-L first splits the
untrimmed video into short clip segments; then, it predicts which clip segment
contains the target moment and suppresses the importance of other segments.
Finally, the clip segments are concatenated, with different confidences, to
locate the target moment accurately. Extensive experiments on three benchmark
datasets show that the proposed VSLNet and VSLNet-L outperform the
state-of-the-art methods; VSLNet-L addresses the issue of performance
degradation on long videos. Our study suggests that the span-based QA framework
is an effective strategy to solve the NLVL problem.
- Abstract(参考訳): 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。
既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。
これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。
本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。
NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。
VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。
QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。
長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。
VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。
最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。
3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。
本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。
関連論文リスト
- PPLLaVA: Varied Video Sequence Understanding With Prompt Guidance [44.08446730529495]
トークン圧縮と命令対応の視覚的特徴集約を同時に実現する新しいプーリング戦略を提案する。
我々のモデルはPPLLaVA(Prompt-guided Pooling LLaVA)と呼ばれる。
論文 参考訳(メタデータ) (2024-11-04T17:50:36Z) - Too Many Frames, Not All Useful: Efficient Strategies for Long-Form Video QA [40.54207548074378]
広い時間間隔にまたがるロングフォームビデオは、非常に冗長な情報である。
正しい応答を生成するために必要な全ての情報は、しばしばフレームの小さなサブセットに含まれる。
論文 参考訳(メタデータ) (2024-06-13T17:59:16Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Span-based Localizing Network for Natural Language Video Localization [60.54191298092136]
非トリミングビデオとテキストクエリが与えられたとき、自然言語ビデオローカライゼーション(NLVL)は、クエリに意味的に対応するビデオからマッチングスパンを見つけることである。
NLVLに対処するビデオスパンローカライズネットワーク(VSLNet)を提案する。
論文 参考訳(メタデータ) (2020-04-29T02:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。