Fugu-MT 論文翻訳(概要): CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

論文の概要: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding

arxiv url: http://arxiv.org/abs/2209.10918v1
Date: Thu, 22 Sep 2022 10:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 14:18:38.325937
Title: CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding
Title（参考訳）: CONE: 長時間ビデオの時間的接地のための効率的な粗面と有限面のアライメントフレームワーク
Authors: Zhijian Hou, Wanjun Zhong, Lei Ji, Difei Gao, Kun Yan, Wing-Kwong Chan, Chong-Wah Ngo, Zheng Shou, Nan Duan
Abstract要約: ビデオ時間的グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間的モーメントをローカライズすることを目的としている。現実世界のアプリケーションは、絶え間なく続くビデオストリームを提供するので、ロングフォームビデオの時間的グラウンド化の需要が高まる。提案するConEは、より高速な長大なビデオ入力を処理できる、効率的なウィンドウ中心のCoarse-to-fiNEアライメントフレームワークである。
参考スコア（独自算出の注目度）: 70.7882058229772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video temporal grounding (VTG) targets to localize temporal moments in an untrimmed video according to a natural language (NL) description. Since real-world applications provide a never-ending video stream, it raises demands for temporal grounding for long-form videos, which leads to two major challenges: (1) the long video length makes it difficult to process the entire video without decreasing sample rate and leads to high computational burden; (2) the accurate multi-modal alignment is more challenging as the number of moment candidates increases. To address these challenges, we propose CONE, an efficient window-centric COarse-to-fiNE alignment framework, which flexibly handles long-form video inputs with higher inference speed, and enhances the temporal grounding via our novel coarse-to-fine multi-modal alignment framework. Specifically, we dynamically slice the long video into candidate windows via a sliding window approach. Centering at windows, CONE (1) learns the inter-window (coarse-grained) semantic variance through contrastive learning and speeds up inference by pre-filtering the candidate windows relevant to the NL query, and (2) conducts intra-window (fine-grained) candidate moments ranking utilizing the powerful multi-modal alignment ability of a contrastive vision-text pre-trained model. Extensive experiments on two large-scale VTG benchmarks for long videos consistently show a substantial performance gain (from 3.13% to 6.87% on MAD and from 10.46% to 13.46% on Ego4d-NLQ) and CONE achieves the SOTA results on both datasets. Analysis reveals the effectiveness of components and higher efficiency in long video grounding as our system improves the inference speed by 2x on Ego4d-NLQ and 15x on MAD while keeping the SOTA performance of CONE.
Abstract（参考訳）: ビデオ時間グラウンド(VTG)は、自然言語(NL)の記述に従って、未トリミングビデオ中の時間モーメントをローカライズする。実世界のアプリケーションは、絶え間ないビデオストリームを提供するため、長大ビデオの時間的グラウンド化の要求が高まるため、(1)長大ビデオ長は、サンプルレートを低下させることなく動画全体を処理し難くし、(2)正確なマルチモーダルアライメントは、モーメント候補の数が増えるにつれてより困難である。これらの課題に対処するため,我々は,長い形式の映像入力を高い推論速度で柔軟に処理し,より効率的なウィンドウ中心の粗モダルアライメントフレームワークであるconanを提案する。具体的には、スライディングウィンドウアプローチにより、長いビデオを候補ウィンドウに動的にスライスする。ウィンドウを中心に、コーン(1)は、コントラスト学習を通じてウィンドウ間意味分散を学習し、nlクエリに関連する候補ウィンドウを予めフィルタすることにより推論を高速化し、(2)コントラスト視覚テキスト事前学習モデルの強力なマルチモーダルアライメント能力を利用してウィンドウ内候補モーメントランキングを行う。ロングビデオ用の2つの大規模なVTGベンチマークの大規模な実験は、一貫してパフォーマンスが大幅に向上し(MADは3.13%から6.87%、Ego4d-NLQは10.46%から13.46%)、CONEは両方のデータセットでSOTA結果を達成する。 Ego4d-NLQ では2倍,MAD では15倍,CONE ではSOTA 性能を維持しながら推論速度は2倍向上する。

関連論文リスト

Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文参考訳（メタデータ） (2025-06-05T14:41:38Z)
TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。 TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。 i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文参考訳（メタデータ） (2025-06-05T12:54:56Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。 DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文参考訳（メタデータ） (2024-10-22T21:21:37Z)
SnAG: Scalable and Accurate Video Grounding [10.578025234151596]
ビデオにおけるテキスト記述の時間的基盤は、視覚言語学習とビデオ理解において中心的な問題である。ビデオグラウンドモデルのスケーラビリティに及ぼすクロスモーダル融合の影響について検討する。我々は、スケーラブルで正確なビデオグラウンドのためのシンプルなベースラインであるSnAGを提示する。
論文参考訳（メタデータ） (2024-04-02T19:25:04Z)
Temporal Sentence Grounding in Streaming Videos [60.67022943824329]
本稿では,ストリーミングビデオにおける時間文グラウンディング(TSGSV)の新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。本研究では,(1)モデルが今後のイベントを学習することを可能にするTwinNet構造,(2)冗長な視覚的フレームを除去する言語誘導型特徴圧縮器の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-14T12:30:58Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
DVIS: Decoupled Video Instance Segmentation Framework [15.571072365208872]
ビデオインスタンスセグメンテーション(VIS)は、自律運転やビデオ編集を含む様々なアプリケーションにおいて重要なタスクである。既存の手法は、主に2つの要因により、実世界の複雑なビデオや長いビデオでは性能が劣ることが多い。分割,追跡,改良の3つの独立したサブタスクに分割することで,VISの分離戦略を提案する。
論文参考訳（メタデータ） (2023-06-06T05:24:15Z)
Self-supervised and Weakly Supervised Contrastive Learning for Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文参考訳（メタデータ） (2022-12-06T16:42:22Z)
Deep Unsupervised Key Frame Extraction for Efficient Video Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文参考訳（メタデータ） (2022-11-12T20:45:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。