論文の概要: EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation
- arxiv url: http://arxiv.org/abs/2109.04600v1
- Date: Fri, 10 Sep 2021 00:30:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:47:49.885853
- Title: EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery
Generation
- Title(参考訳): evoquer: video-pivoted backquery生成による時間的接地強化
- Authors: Yanjun Gao, Lulu Liu, Jason Wang, Xin Chen, Huayan Wang, Rui Zhang
- Abstract要約: 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト・ビデオ・グラウンドリングモデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的グラウンドディングフレームワークであるEVOQUERを提案する。
- 参考スコア(独自算出の注目度): 10.799980374791316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal grounding aims to predict a time interval of a video clip
corresponding to a natural language query input. In this work, we present
EVOQUER, a temporal grounding framework incorporating an existing text-to-video
grounding model and a video-assisted query generation network. Given a query
and an untrimmed video, the temporal grounding model predicts the target
interval, and the predicted video clip is fed into a video translation task by
generating a simplified version of the input query. EVOQUER forms closed-loop
learning by incorporating loss functions from both temporal grounding and query
generation serving as feedback. Our experiments on two widely used datasets,
Charades-STA and ActivityNet, show that EVOQUER achieves promising improvements
by 1.05 and 1.31 at R@0.7. We also discuss how the query generation task could
facilitate error analysis by explaining temporal grounding model behavior.
- Abstract(参考訳): 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。
本稿では,既存のテキスト対ビデオ接地モデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的接地フレームワークであるevoquerを提案する。
クエリと未トリミング映像が与えられた場合、時間的グラウンドモデルは目標間隔を予測し、予測されたビデオクリップを、入力クエリの簡易バージョンを生成してビデオ翻訳タスクに投入する。
EVOQUERは、時間的グラウンドとクエリ生成の両方から損失関数を組み込んで、クローズループ学習を形成する。
広く使われている2つのデータセットであるCharades-STAとActivityNetの実験は、EVOQUERが1.05と1.31をR@0.7で達成していることを示している。
また,時間的接地モデルの振る舞いを説明することにより,クエリ生成タスクがエラー解析を容易にする方法について述べる。
関連論文リスト
- On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - READ: Recurrent Adapter with Partial Video-Language Alignment for Parameter-Efficient Transfer Learning in Low-Resource Video-Language Modeling [31.745255364708864]
トレーニング済みモデルに軽量アダプタを導入し、微調整時にのみ更新する。
本稿では、時間的モデリング機能を実現するために、繰り返し計算を利用する新しいRecurrent Adapter(READ)を提案する。
我々は、READが既存のすべての微調整戦略を著しく上回る広範囲な実験を通じて、READフレームワークを検証する。
論文 参考訳(メタデータ) (2023-12-12T03:09:30Z) - Knowing Where to Focus: Event-aware Transformer for Video Grounding [40.526461893854226]
イベント対応動的モーメントクエリを定式化し、入力固有のコンテンツと動画の位置情報を考慮に入れます。
実験では、イベント対応動的モーメントクエリの有効性と効率を実証し、いくつかのビデオグラウンドベンチマークで最先端のアプローチより優れていることを示した。
論文 参考訳(メタデータ) (2023-08-14T05:54:32Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。