論文の概要: Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization
- arxiv url: http://arxiv.org/abs/2401.08232v1
- Date: Tue, 16 Jan 2024 09:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:37:46.369442
- Title: Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization
- Title(参考訳): 自然言語ビデオローカライズのためのマルチスケール2次元時間地図拡散モデル
- Authors: Chongzhi Zhang, Mingyuan Zhang, Zhiyang Teng, Jiayi Li, Xizhou Zhu,
Lewei Lu, Ziwei Liu, Aixin Sun
- Abstract要約: この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
- 参考スコア(独自算出の注目度): 85.85582751254785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Video Localization (NLVL), grounding phrases from natural
language descriptions to corresponding video segments, is a complex yet
critical task in video understanding. Despite ongoing advancements, many
existing solutions lack the capability to globally capture temporal dynamics of
the video data. In this study, we present a novel approach to NLVL that aims to
address this issue. Our method involves the direct generation of a global 2D
temporal map via a conditional denoising diffusion process, based on the input
video and language query. The main challenges are the inherent sparsity and
discontinuity of a 2D temporal map in devising the diffusion decoder. To
address these challenges, we introduce a multi-scale technique and develop an
innovative diffusion decoder. Our approach effectively encapsulates the
interaction between the query and video data across various time scales.
Experiments on the Charades and DiDeMo datasets underscore the potency of our
design.
- Abstract(参考訳): 自然言語ビデオローカライゼーション(英語版)(nlvl)は、自然言語記述から対応するビデオセグメントへのフレーズの接地であり、ビデオ理解において複雑だが重要なタスクである。
進行中の進歩にもかかわらず、既存の多くのソリューションには、ビデオデータの時間的ダイナミクスをグローバルにキャプチャする能力がない。
本研究では,NLVLに対して,この問題に対処するための新しいアプローチを提案する。
提案手法では,入力ビデオと言語クエリに基づいて,条件付きデノナイズ拡散プロセスによるグローバル2次元時間マップの直接生成を行う。
主な課題は拡散デコーダを考案する際の2次元時間マップの空間性と不連続性である。
これらの課題に対処するために,マルチスケール手法を導入し,革新的な拡散デコーダを開発した。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
CharadesとDiDeMoデータセットの実験は、私たちのデザインの有効性を強調します。
関連論文リスト
- Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - LGDN: Language-Guided Denoising Network for Video-Language Modeling [30.99646752913056]
本稿では,映像言語モデリングのための効率的かつ効率的な言語ガイド型認知ネットワーク(LGDN)を提案する。
我々のLGDNは、言語監督下で、不整合または冗長なフレームを動的にフィルタリングし、クロスモーダルトークンレベルのアライメントのために、1ビデオあたり2~4サラントフレームしか取得できない。
論文 参考訳(メタデータ) (2022-09-23T03:35:59Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form
Sentences [107.0776836117313]
STVGは、トリミングされていないビデオと宣言的/解釈的な文が与えられた場合、クエリされたオブジェクトの時間管をローカライズすることを目的としている。
既存の手法では、非効率なチューブ前世代と新しいオブジェクト関係モデリングの欠如により、STVGタスクに対処できない。
本稿では,この課題に対する宣言型時間グラフ推論ネットワーク(STGRN)を提案する。
論文 参考訳(メタデータ) (2020-01-19T19:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。