論文の概要: Hierarchical Local-Global Transformer for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2208.14882v1
- Date: Wed, 31 Aug 2022 14:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:10:18.179935
- Title: Hierarchical Local-Global Transformer for Temporal Sentence Grounding
- Title(参考訳): 時相文接地のための階層的局所的グローバルトランスフォーマ
- Authors: Xiang Fang, Daizong Liu, Pan Zhou, Zichuan Xu and Ruixuan Li
- Abstract要約: 本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
- 参考スコア(独自算出の注目度): 58.247592985849124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the multimedia problem of temporal sentence grounding
(TSG), which aims to accurately determine the specific video segment in an
untrimmed video according to a given sentence query. Traditional TSG methods
mainly follow the top-down or bottom-up framework and are not end-to-end. They
severely rely on time-consuming post-processing to refine the grounding
results. Recently, some transformer-based approaches are proposed to
efficiently and effectively model the fine-grained semantic alignment between
video and query. Although these methods achieve significant performance to some
extent, they equally take frames of the video and words of the query as
transformer input for correlating, failing to capture their different levels of
granularity with distinct semantics. To address this issue, in this paper, we
propose a novel Hierarchical Local-Global Transformer (HLGT) to leverage this
hierarchy information and model the interactions between different levels of
granularity and different modalities for learning more fine-grained multi-modal
representations. Specifically, we first split the video and query into
individual clips and phrases to learn their local context (adjacent dependency)
and global correlation (long-range dependency) via a temporal transformer.
Then, a global-local transformer is introduced to learn the interactions
between the local-level and global-level semantics for better multi-modal
reasoning. Besides, we develop a new cross-modal cycle-consistency loss to
enforce interaction between two modalities and encourage the semantic alignment
between them. Finally, we design a brand-new cross-modal parallel transformer
decoder to integrate the encoded visual and textual features for final
grounding. Extensive experiments on three challenging datasets show that our
proposed HLGT achieves a new state-of-the-art performance.
- Abstract(参考訳): 本稿では,時間的文のグラウンドリング(TSG)のマルチメディア問題について検討し,与えられた文問合せに基づいてビデオ中の特定のビデオセグメントを正確に判定することを目的とする。
従来のTSGメソッドは主にトップダウンまたはボトムアップフレームワークに従っており、エンドツーエンドではない。
彼らは接地結果を洗練するために、時間を要する事後処理を厳しく頼りにしている。
近年,映像と問合せの細かな意味的アライメントを効率的かつ効果的にモデル化するトランスフォーマティブ・アプローチが提案されている。
これらの手法はある程度大きな性能を発揮するが、ビデオのフレームとクエリの単語を関連づけるためのトランスフォーマティブ入力として等しく捉え、異なる意味を持つ異なるレベルの粒度を捉えることができない。
この問題に対処するために,本稿では,この階層情報を活用し,より微細なマルチモーダル表現を学習するための異なる粒度と異なるモダリティ間の相互作用をモデル化する,新しい階層型局所グラフ変換器(HLGT)を提案する。
具体的には、まずビデオとクエリを個々のクリップとフレーズに分割して、時間的トランスフォーマによるローカルコンテキスト(隣接依存性)とグローバル相関(長距離依存性)を学ぶ。
次に,グローバル・ローカル・トランスフォーマーを導入し,局所レベルとグローバルレベルのセマンティクス間の相互作用を学習し,マルチモーダル推論を改善する。
さらに,2つのモード間の相互作用を強制し,それら間のセマンティックアライメントを促進するために,新たなクロスモーダルサイクル整合性損失を開発する。
最後に,新しいクロスモーダル並列トランスフォーマーデコーダを設計し,符号化された視覚特徴とテキスト特徴を統合して最終接地を行う。
3つの挑戦的なデータセットに対する大規模な実験により、提案したHLGTは、新しい最先端のパフォーマンスを実現する。
関連論文リスト
- Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Generation-Guided Multi-Level Unified Network for Video Grounding [18.402093379973085]
ビデオグラウンディングは、未トリミングされたビデオの中で、クエリ記述に最適なタイムスタンプを見つけることを目的としている。
モーメントレベルのアプローチは、グローバルな視点で各過渡モーメントが境界となる確率を直接予測する。
クリップレベルのものは、異なる時間窓のモーメントをプロポーザルに集約し、最も類似したモーメントを推論し、きめ細かいグラウンドリングにおいてその優位性をもたらす。
論文 参考訳(メタデータ) (2023-03-14T09:48:59Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - End-to-End Dense Video Grounding via Parallel Regression [30.984657885692553]
ビデオグラウンドイングは、言語クエリが与えられた未トリミングビデオに対応するビデオモーメントをローカライズすることを目的としている。
本稿では,Transformer-alike Architecture (PRVG) を再構成することで,エンドツーエンドの並列デコーディングパラダイムを提案する。
設計の単純さのおかげで、私たちのPRVGフレームワークは異なるテストスキームに適用できます。
論文 参考訳(メタデータ) (2021-09-23T10:03:32Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval [40.646628490887075]
ビデオテキスト検索のためのHiT(Hierarchical Transformer)という新しい手法を提案する。
HiTは特徴レベルと意味レベルで階層的相互モーダルコントラストマッチングを行い、多視点および包括的検索結果を得る。
MoCoにインスパイアされたクロスモーダル学習のためのMomentum Cross-modal Contrastを提案する。
論文 参考訳(メタデータ) (2021-03-28T04:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。