論文の概要: Localizing Moments in Long Video Via Multimodal Guidance
- arxiv url: http://arxiv.org/abs/2302.13372v2
- Date: Sun, 15 Oct 2023 13:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:25:44.261595
- Title: Localizing Moments in Long Video Via Multimodal Guidance
- Title(参考訳): マルチモーダル誘導映像におけるモーメントの局所化
- Authors: Wayner Barrios, Mattia Soldan, Alberto Mario Ceballos-Arroyo, Fabian
Caba Heilbron and Bernard Ghanem
- Abstract要約: 本研究では,非記述可能なウィンドウを識別し,抽出することにより,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
実験の結果,提案手法はMADが4.1%,Ego4Dが4.52%,最先端モデルが4.1%向上することがわかった。
- 参考スコア(独自算出の注目度): 51.72829274071017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent introduction of the large-scale, long-form MAD and Ego4D datasets
has enabled researchers to investigate the performance of current
state-of-the-art methods for video grounding in the long-form setup, with
interesting findings: current grounding methods alone fail at tackling this
challenging task and setup due to their inability to process long video
sequences. In this paper, we propose a method for improving the performance of
natural language grounding in long videos by identifying and pruning out
non-describable windows. We design a guided grounding framework consisting of a
Guidance Model and a base grounding model. The Guidance Model emphasizes
describable windows, while the base grounding model analyzes short temporal
windows to determine which segments accurately match a given language query. We
offer two designs for the Guidance Model: Query-Agnostic and Query-Dependent,
which balance efficiency and accuracy. Experiments demonstrate that our
proposed method outperforms state-of-the-art models by 4.1% in MAD and 4.52% in
Ego4D (NLQ), respectively. Code, data and MAD's audio features necessary to
reproduce our experiments are available at:
https://github.com/waybarrios/guidance-based-video-grounding.
- Abstract(参考訳): 最近の大規模で長期のMADとEgo4Dデータセットの導入により、研究者は、長期のセットアップにおける現在の最先端のビデオグラウンドのパフォーマンスを調査できるようになった。
本稿では,非記述可能なウィンドウを識別し,取り出すことによって,長いビデオにおける自然言語グラウンドリングの性能を向上させる手法を提案する。
我々は,誘導モデルと基底接地モデルからなる誘導接地フレームワークを設計した。
Guidance Modelは記述可能なウィンドウを強調し、ベースグラウンドモデルは短い時間ウィンドウを分析し、どのセグメントが与えられた言語クエリと正確に一致するかを判断する。
私たちは、効率と精度のバランスをとる、Query-AgnosticとQuery-Dependentの2つのデザインを提供します。
提案手法は,MADでは4.1%,Ego4D(NLQ)では4.52%,最先端モデルでは2。
実験を再現するために必要なコード、データ、MADのオーディオ機能は、https://github.com/waybarrios/guidance-based-video-grounding.comにある。
関連論文リスト
- Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video
Grounding [116.71519261521753]
ビデオグラウンドイングは、入力テキストクエリに対応するビデオ内の時間セクションをローカライズすることを目的としている。
本稿では,現在のビデオグラウンドリング手法において,オープン語彙時空間ビデオグラウンドニングタスクを導入することにより,限界に対処する。
論文 参考訳(メタデータ) (2023-12-31T13:53:37Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。