論文の概要: Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos
- arxiv url: http://arxiv.org/abs/2303.08345v2
- Date: Wed, 22 Mar 2023 12:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:29:55.619081
- Title: Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding
in Long Videos
- Title(参考訳): 一度だけスキャンする: 長時間ビデオの高速時間グラウンドのためのエンドツーエンドフレームワーク
- Authors: Yulin Pan, Xiangteng He, Biao Gong, Yiliang Lv, Yujun Shen, Yuxin
Peng, Deli Zhao
- Abstract要約: ビデオ時間グラウンドは、クエリ記述にマッチしたビデオセグメントをピンポイントすることを目的としている。
高速な時間的グラウンド化のためのエンドツーエンドのフレームワークを提案する。
提案手法は最先端技術よりも優れ,textbf14.6$times$ / textbf102.8$times$高効率を実現している。
- 参考スコア(独自算出の注目度): 60.86880787242561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding aims to pinpoint a video segment that matches the
query description. Despite the recent advance in short-form videos
(\textit{e.g.}, in minutes), temporal grounding in long videos (\textit{e.g.},
in hours) is still at its early stage. To address this challenge, a common
practice is to employ a sliding window, yet can be inefficient and inflexible
due to the limited number of frames within the window. In this work, we propose
an end-to-end framework for fast temporal grounding, which is able to model an
hours-long video with \textbf{one-time} network execution. Our pipeline is
formulated in a coarse-to-fine manner, where we first extract context knowledge
from non-overlapped video clips (\textit{i.e.}, anchors), and then supplement
the anchors that highly response to the query with detailed content knowledge.
Besides the remarkably high pipeline efficiency, another advantage of our
approach is the capability of capturing long-range temporal correlation, thanks
to modeling the entire video as a whole, and hence facilitates more accurate
grounding. Experimental results suggest that, on the long-form video datasets
MAD and Ego4d, our method significantly outperforms state-of-the-arts, and
achieves \textbf{14.6$\times$} / \textbf{102.8$\times$} higher efficiency
respectively. Project can be found at
\url{https://github.com/afcedf/SOONet.git}.
- Abstract(参考訳): video temporal groundingは、クエリ記述にマッチするビデオセグメントをピンポイントすることを目的としている。
短いビデオ(例えば、数分で)の進歩にもかかわらず、長いビデオ(例えば、数時間で)での時間的接地は、まだ初期段階にある。
この課題に対処するため、一般的なプラクティスはスライディングウィンドウを使うことであるが、ウィンドウ内のフレーム数が限られているため、非効率で柔軟性がない。
そこで本研究では,ネットワーク実行時に1時間単位の映像をモデル化できる高速時空間接地のためのエンド・ツー・エンドのフレームワークを提案する。
パイプラインは粗大な方法で定式化され、まず、オーバーラップされていないビデオクリップ(\textit{i.e.}、アンカー)からコンテキスト知識を抽出し、クエリに詳細なコンテンツ知識で応答するアンカーを補う。
パイプライン効率が著しく高いことに加えて,映像全体をモデル化することで,長距離時間相関を捉えることが可能であり,より正確な地盤形成が容易になるというメリットもある。
実験結果から,MAD と Ego4d の長大なビデオデータセットにおいて,本手法は最先端技術よりも優れており,それぞれ高効率で \textbf{14.6$\times$} / \textbf{102.8$\times$} を実現することが示唆された。
プロジェクトは \url{https://github.com/afcedf/SOONet.git} で見ることができる。
関連論文リスト
- Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models [53.235170710385006]
我々は,特定の映像モーメントをきめ細かな方法で知覚・推論できる新しいビデオLLMであるGrounded-VideoLLMを紹介した。
我々は,(1)フレーム間の関係を符号化する追加の時間的ストリームと(2)特定の時間的知識に富んだ離散的な時間的トークンを組み込むことで,モデルを洗練する。
実験では, 時間文の接地, ビデオキャプションの密接化, ビデオQAの接地といった, きめ細かい接地作業に優れていた。
論文 参考訳(メタデータ) (2024-10-04T10:04:37Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - How Much Temporal Long-Term Context is Needed for Action Segmentation? [16.89998201009075]
ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
論文 参考訳(メタデータ) (2023-08-22T11:20:40Z) - NUWA-XL: Diffusion over Diffusion for eXtremely Long Video Generation [157.07019458623242]
NUWA-XLは、eXtremely Long 世代のための新しい拡散アーキテクチャである。
当社のアプローチでは,動画を同じ粒度で並列に生成できる粗大な「微細化」プロセスを採用している。
実験の結果,グローバル・ローカル・コヒーレンスの両方で高品質な長編ビデオを生成するだけでなく,平均推定時間を7.55分から26秒に短縮できることがわかった。
論文 参考訳(メタデータ) (2023-03-22T07:10:09Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。