Fugu-MT 論文翻訳(概要): RGNet: A Unified Retrieval and Grounding Network for Long Videos

論文の概要: RGNet: A Unified Retrieval and Grounding Network for Long Videos

arxiv url: http://arxiv.org/abs/2312.06729v1
Date: Mon, 11 Dec 2023 09:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 18:35:17.432835
Title: RGNet: A Unified Retrieval and Grounding Network for Long Videos
Title（参考訳）: RGNet:ロングビデオのための統合検索とグラウンドネットワーク
Authors: Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius
Abstract要約: 本稿では、1時間ビデオから提案を共同で選択するための統合ネットワークRGNetを紹介する。そこで我々は,ビデオテキスト検索タスクとして提案選択を再定義する。 RGNetのコアコンポーネントは、クロスモーダルなRGエンコーダである。
参考スコア（独自算出の注目度）: 18.48046903975585
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel end-to-end method for long-form video temporal grounding to locate specific moments described by natural language queries. Prior long-video methods for this task typically contain two stages: proposal selection and grounding regression. However, the proposal selection of these methods is disjoint from the grounding network and is not trained end-to-end, which limits the effectiveness of these methods. Moreover, these methods operate uniformly over the entire temporal window, which is suboptimal given redundant and irrelevant features in long videos. In contrast to these prior approaches, we introduce RGNet, a unified network designed for jointly selecting proposals from hour-long videos and locating moments specified by natural language queries within them. To achieve this, we redefine proposal selection as a video-text retrieval task, i.e., retrieving the correct candidate videos given a text query. The core component of RGNet is a unified cross-modal RG-Encoder that bridges the two stages with shared features and mutual optimization. The encoder strategically focuses on relevant time frames using a sparse sampling technique. RGNet outperforms previous methods, demonstrating state-of-the-art performance on long video temporal grounding datasets MAD and Ego4D. The code is released at https://github.com/Tanveer81/RGNet
Abstract（参考訳）: 本稿では,自然言語クエリによって記述された特定のモーメントを特定するために,映像の時間的グラウンド化のための新しいエンドツーエンド手法を提案する。このタスクの事前のロングビデオメソッドは、通常、提案の選択と回帰の2つの段階を含む。しかし,提案手法の選定はグラウンドネットワークとは相容れないため,エンド・ツー・エンドの訓練は行わないため,提案手法の有効性は制限される。さらに、これらの手法は時間的ウィンドウ全体にわたって均一に動作し、長編ビデオでは冗長で無関係な特徴が与えられた。従来のアプローチとは対照的に,時間長ビデオから提案を共同で選択し,その中の自然言語クエリによって指定されたモーメントを特定できる統一ネットワークであるRGNetを導入する。これを実現するために,提案手法をビデオテキスト検索タスクとして再定義する。 RGNetのコアコンポーネントはクロスモーダルなRGエンコーダで、2つのステージを共通の特徴と相互最適化でブリッジする。エンコーダはスパースサンプリング技術を用いて,関連時間フレームを戦略的に重視する。 RGNetは従来の手法より優れており、長いビデオ時間的グラウンドデータセットMADとEgo4Dで最先端のパフォーマンスを示している。コードはhttps://github.com/Tanveer81/RGNetで公開されている。

関連論文リスト

DeCafNet: Delegate and Conquer for Efficient Temporal Grounding in Long Videos [31.42088612166144]
Long Video Temporal Groundingは、ユーザが提供するテキストクエリに基づいて、長いビデオ内の特定の瞬間を特定することを目的としている。ビデオのクリップ分割と、フルスケールのエキスパートエンコーダによる各クリップの処理は、既存の方法ではスケールが難しい。 DeCafNetは、デリゲート・アンド・コンカヤの戦略を利用して、基礎性能を犠牲にすることなく計算効率を向上する手法である。
論文参考訳（メタデータ） (2025-05-22T08:29:57Z)
QuickVideo: Real-Time Long Video Understanding with System Algorithm Co-Design [54.38970077613728]
ビデオ監視、会議要約、教育講義分析、スポーツ放送といった現実の応用において、ロングビデオ理解が重要な機能として現れてきた。我々は,リアルタイムダウンストリームアプリケーションをサポートするために,長時間ビデオ理解を大幅に高速化するシステムアルゴリズムの共同設計であるQuickVideoを提案する。
論文参考訳（メタデータ） (2025-05-22T03:26:50Z)
LV-MAE: Learning Long Video Representations through Masked-Embedding Autoencoders [9.996331443220651]
長ビデオマスク埋め込みオートエンコーダ(LV-MAE)を紹介する。 LV-MAEは長期表現のための自己教師型学習フレームワークである。 3つの長ビデオベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2025-04-04T14:56:27Z)
Parameter-free Video Segmentation for Vision and Language Understanding [55.20132267309382]
最小記述長の原理に基づいて,映像を連続的なチャンクに分割するアルゴリズムを提案する。アルゴリズムは完全にパラメータフリーで、設定された閾値や指定するチャンクの数やサイズを必要としない特徴ベクトルが与えられる。
論文参考訳（メタデータ） (2025-03-03T05:54:37Z)
VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文参考訳（メタデータ） (2024-12-31T18:01:23Z)
Multi-Scale Contrastive Learning for Video Temporal Grounding [42.180296672043404]
自然言語クエリに関連する映像モーメントをローカライズする時間的グラウンドリングは、視覚言語学習とビデオ理解の中核的な問題である。本稿ではビデオモーメント間の有能な意味を捉えるための対照的な学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-10T03:34:56Z)
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文参考訳（メタデータ） (2024-10-04T10:04:37Z)
Multi-sentence Video Grounding for Long Video Generation [46.363084926441466]
長大映像生成のための多文ビデオグラウンドの勇敢で新しいアイデアを提案する。提案手法は,画像・ビデオ編集,ビデオモーフィング,パーソナライズド生成,ビデオグラウンドニングの発達を,長いビデオ生成にシームレスに拡張する。
論文参考訳（メタデータ） (2024-07-18T07:05:05Z)
Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文参考訳（メタデータ） (2024-06-24T01:56:12Z)
TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文参考訳（メタデータ） (2023-12-13T21:02:03Z)
A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。 1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文参考訳（メタデータ） (2023-12-12T16:10:19Z)
ECLIPSE: Efficient Long-range Video Retrieval using Sight and Sound [103.28102473127748]
長距離テキスト・ビデオ検索のためのオーディオビジュアル手法を提案する。私たちのアプローチは、複雑な人間のアクションを捉えた数分のビデオを検索することを目的としています。我々の手法は2.92倍高速で、2.34倍のメモリ効率を持つ。
論文参考訳（メタデータ） (2022-04-06T14:43:42Z)
Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文参考訳（メタデータ） (2021-04-02T18:59:09Z)
Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。 LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。 4つのベンチマークデータセットで大規模な実験を行う。
論文参考訳（メタデータ） (2020-03-31T10:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。