論文の概要: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- arxiv url: http://arxiv.org/abs/2209.10918v1
- Date: Thu, 22 Sep 2022 10:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:18:38.325937
- Title: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video
Temporal Grounding
- Title(参考訳): CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク
- Authors: Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong
Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan
- Abstract要約: ビデオ時間的グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間的モーメントをローカライズすることを目的としている。
現実世界のアプリケーションは、絶え間なく続くビデオストリームを提供するので、ロングフォームビデオの時間的グラウンド化の需要が高まる。
提案するConEは、より高速な長大なビデオ入力を処理できる、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークである。
- 参考スコア(独自算出の注目度): 70.7882058229772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video temporal grounding (VTG) targets to localize temporal moments in an
untrimmed video according to a natural language (NL) description. Since
real-world applications provide a never-ending video stream, it raises demands
for temporal grounding for long-form videos, which leads to two major
challenges: (1) the long video length makes it difficult to process the entire
video without decreasing sample rate and leads to high computational burden;
(2) the accurate multi-modal alignment is more challenging as the number of
moment candidates increases. To address these challenges, we propose CONE, an
efficient window-centric COarse-to-fiNE alignment framework, which flexibly
handles long-form video inputs with higher inference speed, and enhances the
temporal grounding via our novel coarse-to-fine multi-modal alignment
framework. Specifically, we dynamically slice the long video into candidate
windows via a sliding window approach. Centering at windows, CONE (1) learns
the inter-window (coarse-grained) semantic variance through contrastive
learning and speeds up inference by pre-filtering the candidate windows
relevant to the NL query, and (2) conducts intra-window (fine-grained)
candidate moments ranking utilizing the powerful multi-modal alignment ability
of a contrastive vision-text pre-trained model. Extensive experiments on two
large-scale VTG benchmarks for long videos consistently show a substantial
performance gain (from 3.13% to 6.87% on MAD and from 10.46% to 13.46% on
Ego4d-NLQ) and CONE achieves the SOTA results on both datasets. Analysis
reveals the effectiveness of components and higher efficiency in long video
grounding as our system improves the inference speed by 2x on Ego4d-NLQ and 15x
on MAD while keeping the SOTA performance of CONE.
- Abstract(参考訳): ビデオ時間グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間モーメントをローカライズする。
実世界のアプリケーションは、絶え間ないビデオストリームを提供するため、長大ビデオの時間的グラウンド化の要求が高まるため、(1)長大ビデオ長は、サンプルレートを低下させることなく動画全体を処理し難くし、(2)正確なマルチモーダルアライメントは、モーメント候補の数が増えるにつれてより困難である。
これらの課題に対処するため,我々は,長い形式の映像入力を高い推論速度で柔軟に処理し,より効率的なウィンドウ中心の粗モダルアライメントフレームワークであるconanを提案する。
具体的には、スライディングウィンドウアプローチにより、長いビデオを候補ウィンドウに動的にスライスする。
ウィンドウを中心に、コーン(1)は、コントラスト学習を通じてウィンドウ間意味分散を学習し、nlクエリに関連する候補ウィンドウを予めフィルタすることにより推論を高速化し、(2)コントラスト視覚テキスト事前学習モデルの強力なマルチモーダルアライメント能力を利用してウィンドウ内候補モーメントランキングを行う。
ロングビデオ用の2つの大規模なVTGベンチマークの大規模な実験は、一貫してパフォーマンスが大幅に向上し(MADは3.13%から6.87%、Ego4d-NLQは10.46%から13.46%)、CONEは両方のデータセットでSOTA結果を達成する。
Ego4d-NLQ では2倍,MAD では15倍,CONE ではSOTA 性能を維持しながら推論速度は2倍向上する。
関連論文リスト
- TDViT: Temporal Dilated Video Transformer for Dense Video Tasks [35.16197118579414]
TDTTB(Temporal Dilated Video Transformer)は、映像表現を効率的に抽出し、時間的冗長性の負の効果を効果的に緩和する。
ビデオオブジェクト検出のためのImageNet VIDと、ビデオセグメンテーションインスタンスのためのYouTube VISの2つの異なる高密度ビデオベンチマークで実験を行う。
論文 参考訳(メタデータ) (2024-02-14T15:41:07Z) - Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。
TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。
本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T12:30:58Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。
既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。
分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文 参考訳(メタデータ) (2023-06-06T05:24:15Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Frame-wise Action Representations for Long Videos via Sequence
Contrastive Learning [44.412145665354736]
本稿では,フレームワイドな行動表現を学習するための,新しいコントラッシブな行動表現学習フレームワークを提案する。
自己教師型学習の最近の進歩に触発されて,2つの相関する視点に適用した新しいシーケンス・コントラッシブ・ロス(SCL)を提案する。
提案手法は,映像アライメントや細かなフレーム検索作業において,優れた性能を示す。
論文 参考訳(メタデータ) (2022-03-28T17:59:54Z) - Enhanced Spatio-Temporal Interaction Learning for Video Deraining: A
Faster and Better Framework [93.37833982180538]
不要な雨がビデオの可視性を阻害し、ほとんどの屋外ビジョンシステムの堅牢性を低下させるため、ビデオ排水はコンピュータビジョンの重要なタスクです。
拡張時空間相互作用ネットワーク(ESTINet)と呼ばれる新しいエンドツーエンドのデラミニングフレームワークを提案する。
ESTINetは、現在の最先端ビデオの画質とスピードを大幅に向上させる。
論文 参考訳(メタデータ) (2021-03-23T05:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。