論文の概要: RGNet: A Unified Retrieval and Grounding Network for Long Videos
- arxiv url: http://arxiv.org/abs/2312.06729v1
- Date: Mon, 11 Dec 2023 09:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:35:17.432835
- Title: RGNet: A Unified Retrieval and Grounding Network for Long Videos
- Title(参考訳): RGNet:ロングビデオのための統合検索とグラウンドネットワーク
- Authors: Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius
- Abstract要約: 本稿では、1時間ビデオから提案を共同で選択するための統合ネットワークRGNetを紹介する。
そこで我々は,ビデオテキスト検索タスクとして提案選択を再定義する。
RGNetのコアコンポーネントは、クロスモーダルなRGエンコーダである。
- 参考スコア(独自算出の注目度): 18.48046903975585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel end-to-end method for long-form video temporal grounding
to locate specific moments described by natural language queries. Prior
long-video methods for this task typically contain two stages: proposal
selection and grounding regression. However, the proposal selection of these
methods is disjoint from the grounding network and is not trained end-to-end,
which limits the effectiveness of these methods. Moreover, these methods
operate uniformly over the entire temporal window, which is suboptimal given
redundant and irrelevant features in long videos. In contrast to these prior
approaches, we introduce RGNet, a unified network designed for jointly
selecting proposals from hour-long videos and locating moments specified by
natural language queries within them. To achieve this, we redefine proposal
selection as a video-text retrieval task, i.e., retrieving the correct
candidate videos given a text query. The core component of RGNet is a unified
cross-modal RG-Encoder that bridges the two stages with shared features and
mutual optimization. The encoder strategically focuses on relevant time frames
using a sparse sampling technique. RGNet outperforms previous methods,
demonstrating state-of-the-art performance on long video temporal grounding
datasets MAD and Ego4D. The code is released at
https://github.com/Tanveer81/RGNet
- Abstract(参考訳): 本稿では,自然言語クエリによって記述された特定のモーメントを特定するために,映像の時間的グラウンド化のための新しいエンドツーエンド手法を提案する。
このタスクの事前のロングビデオメソッドは、通常、提案の選択と回帰の2つの段階を含む。
しかし,提案手法の選定はグラウンドネットワークとは相容れないため,エンド・ツー・エンドの訓練は行わないため,提案手法の有効性は制限される。
さらに、これらの手法は時間的ウィンドウ全体にわたって均一に動作し、長編ビデオでは冗長で無関係な特徴が与えられた。
従来のアプローチとは対照的に,時間長ビデオから提案を共同で選択し,その中の自然言語クエリによって指定されたモーメントを特定できる統一ネットワークであるRGNetを導入する。
これを実現するために,提案手法をビデオテキスト検索タスクとして再定義する。
RGNetのコアコンポーネントはクロスモーダルなRGエンコーダで、2つのステージを共通の特徴と相互最適化でブリッジする。
エンコーダはスパースサンプリング技術を用いて,関連時間フレームを戦略的に重視する。
RGNetは従来の手法より優れており、長いビデオ時間的グラウンドデータセットMADとEgo4Dで最先端のパフォーマンスを示している。
コードはhttps://github.com/Tanveer81/RGNetで公開されている。
関連論文リスト
- LVCHAT: Facilitating Long Video Comprehension [25.395689904747965]
本稿では,Long Video Chat (LVChat) を提案する。
LVは、長ビデオのQAデータセットと長ビデオのキャプションベンチマークにおいて、既存の手法を最大27%上回っている。
論文 参考訳(メタデータ) (2024-02-19T11:59:14Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video + CLIP Baseline for Ego4D Long-term Action Anticipation [50.544635516455116]
Video + CLIPフレームワークは、CLIPとビデオエンコーダのSlowfastネットワークという、大規模にトレーニング済みのペアイメージテキストモデルを使用している。
両エンコーダから得られる特徴は相補的であり,長期動作予測のタスクにおいて,Ego4Dのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-01T17:57:28Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。