論文の概要: RGNet: A Unified Retrieval and Grounding Network for Long Videos
- arxiv url: http://arxiv.org/abs/2312.06729v1
- Date: Mon, 11 Dec 2023 09:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:35:17.432835
- Title: RGNet: A Unified Retrieval and Grounding Network for Long Videos
- Title(参考訳): RGNet:ロングビデオのための統合検索とグラウンドネットワーク
- Authors: Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius
- Abstract要約: 本稿では、1時間ビデオから提案を共同で選択するための統合ネットワークRGNetを紹介する。
そこで我々は,ビデオテキスト検索タスクとして提案選択を再定義する。
RGNetのコアコンポーネントは、クロスモーダルなRGエンコーダである。
- 参考スコア(独自算出の注目度): 18.48046903975585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel end-to-end method for long-form video temporal grounding
to locate specific moments described by natural language queries. Prior
long-video methods for this task typically contain two stages: proposal
selection and grounding regression. However, the proposal selection of these
methods is disjoint from the grounding network and is not trained end-to-end,
which limits the effectiveness of these methods. Moreover, these methods
operate uniformly over the entire temporal window, which is suboptimal given
redundant and irrelevant features in long videos. In contrast to these prior
approaches, we introduce RGNet, a unified network designed for jointly
selecting proposals from hour-long videos and locating moments specified by
natural language queries within them. To achieve this, we redefine proposal
selection as a video-text retrieval task, i.e., retrieving the correct
candidate videos given a text query. The core component of RGNet is a unified
cross-modal RG-Encoder that bridges the two stages with shared features and
mutual optimization. The encoder strategically focuses on relevant time frames
using a sparse sampling technique. RGNet outperforms previous methods,
demonstrating state-of-the-art performance on long video temporal grounding
datasets MAD and Ego4D. The code is released at
https://github.com/Tanveer81/RGNet
- Abstract(参考訳): 本稿では,自然言語クエリによって記述された特定のモーメントを特定するために,映像の時間的グラウンド化のための新しいエンドツーエンド手法を提案する。
このタスクの事前のロングビデオメソッドは、通常、提案の選択と回帰の2つの段階を含む。
しかし,提案手法の選定はグラウンドネットワークとは相容れないため,エンド・ツー・エンドの訓練は行わないため,提案手法の有効性は制限される。
さらに、これらの手法は時間的ウィンドウ全体にわたって均一に動作し、長編ビデオでは冗長で無関係な特徴が与えられた。
従来のアプローチとは対照的に,時間長ビデオから提案を共同で選択し,その中の自然言語クエリによって指定されたモーメントを特定できる統一ネットワークであるRGNetを導入する。
これを実現するために,提案手法をビデオテキスト検索タスクとして再定義する。
RGNetのコアコンポーネントはクロスモーダルなRGエンコーダで、2つのステージを共通の特徴と相互最適化でブリッジする。
エンコーダはスパースサンプリング技術を用いて,関連時間フレームを戦略的に重視する。
RGNetは従来の手法より優れており、長いビデオ時間的グラウンドデータセットMADとEgo4Dで最先端のパフォーマンスを示している。
コードはhttps://github.com/Tanveer81/RGNetで公開されている。
関連論文リスト
- Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。
提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-07-18T07:05:05Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。
私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。
我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文 参考訳(メタデータ) (2022-04-06T14:43:42Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。