論文の概要: ViGT: Proposal-free Video Grounding with Learnable Token in Transformer
- arxiv url: http://arxiv.org/abs/2308.06009v1
- Date: Fri, 11 Aug 2023 08:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:46:50.435789
- Title: ViGT: Proposal-free Video Grounding with Learnable Token in Transformer
- Title(参考訳): ViGT: 変圧器で学習可能なトークンで提案不要のビデオグラウンド
- Authors: Kun Li, Dan Guo, Meng Wang
- Abstract要約: ビデオグラウンディングタスクは、リッチな言語的記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存のプロポーザルフリーメソッドは、ビデオとクエリ間の複雑な相互作用に閉じ込められている。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
- 参考スコア(独自算出の注目度): 28.227291816020646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The video grounding (VG) task aims to locate the queried action or event in
an untrimmed video based on rich linguistic descriptions. Existing
proposal-free methods are trapped in complex interaction between video and
query, overemphasizing cross-modal feature fusion and feature correlation for
VG. In this paper, we propose a novel boundary regression paradigm that
performs regression token learning in a transformer. Particularly, we present a
simple but effective proposal-free framework, namely Video Grounding
Transformer (ViGT), which predicts the temporal boundary using a learnable
regression token rather than multi-modal or cross-modal features. In ViGT, the
benefits of a learnable token are manifested as follows. (1) The token is
unrelated to the video or the query and avoids data bias toward the original
video and query. (2) The token simultaneously performs global context
aggregation from video and query features. First, we employed a sharing feature
encoder to project both video and query into a joint feature space before
performing cross-modal co-attention (i.e., video-to-query attention and
query-to-video attention) to highlight discriminative features in each
modality. Furthermore, we concatenated a learnable regression token [REG] with
the video and query features as the input of a vision-language transformer.
Finally, we utilized the token [REG] to predict the target moment and visual
features to constrain the foreground and background probabilities at each
timestamp. The proposed ViGT performed well on three public datasets: ANet
Captions, TACoS and YouCookII. Extensive ablation studies and qualitative
analysis further validated the interpretability of ViGT.
- Abstract(参考訳): ビデオグラウンドディング(VG)タスクは、リッチな言語記述に基づく未編集ビデオにおいて、クエリされたアクションやイベントを特定することを目的としている。
既存の提案なしメソッドは、ビデオとクエリの間の複雑なインタラクションに閉じ込められ、クロスモーダル特徴の融合とvgの特徴相関を強調する。
本稿では,変圧器における回帰トークン学習を行う新しい境界回帰パラダイムを提案する。
特に,マルチモーダルやクロスモーダルではなく,学習可能なレグレッショントークンを用いて時間境界を予測できる,シンプルで効果的な提案不要なフレームワークであるVideo Grounding Transformer(ViGT)を提案する。
ViGTでは、学習可能なトークンの利点を次のように示す。
1) トークンはビデオやクエリとは無関係であり、元のビデオやクエリに対するデータのバイアスを回避する。
2) トークンはビデオとクエリ機能からグローバルなコンテキストアグリゲーションを同時に実行する。
まず,ビデオと問合せの両方を共同機能空間に投影する共有機能エンコーダを用いて,各モダリティにおける識別的特徴を強調するために,クロスモーダルなコアテンション(すなわち,ビデオ間注目とクエリ間注目)を行った。
さらに,視覚言語トランスフォーマの入力として,学習可能な回帰トークン [reg] とビデオとクエリの特徴を結合した。
最後に、トークン[REG]を用いて目標モーメントと視覚的特徴を予測し、各タイムスタンプにおける前景および背景確率を制約した。
提案されたViGTは、ANet Captions、TACoS、YouCookIIの3つのパブリックデータセットでうまく機能した。
広範囲にわたるアブレーション研究と定性的分析により、ViGTの解釈可能性はさらに検証された。
関連論文リスト
- Sync from the Sea: Retrieving Alignable Videos from Large-Scale Datasets [62.280729345770936]
AVR(Alignable Video Retrieval)の課題について紹介する。
クェリビデオが与えられた場合、我々は大量のクリップから良質な映像を識別し、時間的にクェリに同期させることができる。
大規模なKineetics700を含む3つのデータセットに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-02T20:00:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Video Graph Transformer for Video Question Answering [182.14696075946742]
本稿では,ビデオクエリアンサー(VideoQA)のためのビデオグラフ変換器(VGT)モデルを提案する。
事前学習のないシナリオでは,VGTは先行技術よりも動的関係推論に挑戦するビデオQAタスクにおいて,はるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-07-12T06:51:32Z) - Modality-Balanced Embedding for Video Retrieval [21.81705847039759]
我々はビデオエンコーダがほぼ完全にテキストマッチングに依存しているモダリティバイアス現象を同定する。
MBVR(Modality Balanced Video Retrievalの略)とMBVR(Modality Balanced Video Retrievalの略)の2つの主要コンポーネントを提案する。
本手法は,モダリティバイアス問題の解法において有効かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-04-18T06:29:46Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。