論文の概要: EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation
- arxiv url: http://arxiv.org/abs/2109.04600v1
- Date: Fri, 10 Sep 2021 00:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:47:49.885853
- Title: EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation
- Title(参考訳): evoquer: video-pivoted backquery生成による時間的接地強化
- Authors: Yanjun Gao, Lulu Liu, Jason Wang, Xin Chen, Huayan Wang, Rui Zhang
- Abstract要約: 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
- 参考スコア(独自算出の注目度): 10.799980374791316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal grounding aims to predict a time interval of a video clip
corresponding to a natural language query input. In this work, we present
EVOQUER, a temporal grounding framework incorporating an existing text-to-video
grounding model and a video-assisted query generation network. Given a query
and an untrimmed video, the temporal grounding model predicts the target
interval, and the predicted video clip is fed into a video translation task by
generating a simplified version of the input query. EVOQUER forms closed-loop
learning by incorporating loss functions from both temporal grounding and query
generation serving as feedback. Our experiments on two widely used datasets,
Charades-STA and ActivityNet, show that EVOQUER achieves promising improvements
by 1.05 and 1.31 at R@0.7. We also discuss how the query generation task could
facilitate error analysis by explaining temporal grounding model behavior.
- Abstract(参考訳): 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト対ビデオ接地モデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的接地フレームワークであるevoquerを提案する。
クエリと未トリミング映像が与えられた場合、時間的グラウンドモデルは目標間隔を予測し、予測されたビデオクリップを、入力クエリの簡易バージョンを生成してビデオ翻訳タスクに投入する。
EVOQUERは、時間的グラウンドとクエリ生成の両方から損失関数を組み込んで、クローズループ学習を形成する。
広く使われている2つのデータセットであるCharades-STAとActivityNetの実験は、EVOQUERが1.05と1.31をR@0.7で達成していることを示している。
また,時間的接地モデルの振る舞いを説明することにより,クエリ生成タスクがエラー解析を容易にする方法について述べる。
関連論文リスト
- Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Knowing Where to Focus: Event-aware Transformer for Video Grounding [40.526461893854226]
イベント対応動的モーメントクエリを定式化し、入力固有のコンテンツと動画の位置情報を考慮に入れます。
実験では、イベント対応動的モーメントクエリの有効性と効率を実証し、いくつかのビデオグラウンドベンチマークで最先端のアプローチより優れていることを示した。
論文 参考訳(メタデータ) (2023-08-14T05:54:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval [20.493241098064665]
ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。
モーダル固有のPseudo Query Generation Network (MPGN) を提案する。
MPGNは、選択した時間モーメントから視覚情報とテキスト情報の両方を活用する疑似クエリを生成する。
我々は,MPGNがビデオコーパスモーメントを明示的なアノテーションなしでローカライズすることに成功したことを示す。
論文 参考訳(メタデータ) (2022-10-23T05:05:18Z) - Can Shuffling Video Benefit Temporal Bias Problem: A Novel Training
Framework for Temporal Grounding [20.185272219985787]
テンポラルグラウンドディングは、意図しないビデオにおいて、与えられた文クエリに意味的に対応する対象のビデオモーメントを見つけることを目的としている。
従来の方法は、視覚的・テクスチャ的セマンティックアライメントに基づいて、ターゲットのモーメント位置を推論するのではなく、トレーニングセットにおけるクエリの時間的バイアスに過度に依存する。
本稿では,シャッフルビデオを用いて時間的バイアス問題に対処し,グラウンド化精度を損なうことなく,グラウンド化モデルを構築するための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T14:11:48Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。