論文の概要: SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2404.14066v2
- Date: Mon, 6 May 2024 13:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 22:37:13.504750
- Title: SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval
- Title(参考訳): SHE-Net: 構文階層強化テキストビデオ検索
- Authors: Xuzheng Yu, Chen Jiang, Xingning Dong, Tian Gan, Ming Yang, Qingpei Guo,
- Abstract要約: 我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
- 参考スコア(独自算出の注目度): 11.548061962976321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The user base of short video apps has experienced unprecedented growth in recent years, resulting in a significant demand for video content analysis. In particular, text-video retrieval, which aims to find the top matching videos given text descriptions from a vast video corpus, is an essential function, the primary challenge of which is to bridge the modality gap. Nevertheless, most existing approaches treat texts merely as discrete tokens and neglect their syntax structures. Moreover, the abundant spatial and temporal clues in videos are often underutilized due to the lack of interaction with text. To address these issues, we argue that using texts as guidance to focus on relevant temporal frames and spatial regions within videos is beneficial. In this paper, we propose a novel Syntax-Hierarchy-Enhanced text-video retrieval method (SHE-Net) that exploits the inherent semantic and syntax hierarchy of texts to bridge the modality gap from two perspectives. First, to facilitate a more fine-grained integration of visual content, we employ the text syntax hierarchy, which reveals the grammatical structure of text descriptions, to guide the visual representations. Second, to further enhance the multi-modal interaction and alignment, we also utilize the syntax hierarchy to guide the similarity calculation. We evaluated our method on four public text-video retrieval datasets of MSR-VTT, MSVD, DiDeMo, and ActivityNet. The experimental results and ablation studies confirm the advantages of our proposed method.
- Abstract(参考訳): 近年、ショートビデオアプリのユーザーベースは前例のない成長を遂げており、ビデオコンテンツ分析の需要が著しく高まっている。
特に、巨大なビデオコーパスからテキスト記述を与えられたトップマッチングビデオを見つけることを目的としたテキストビデオ検索は、重要な機能であり、その主な課題はモダリティギャップを埋めることである。
しかし、既存のほとんどのアプローチは、テキストを単に離散トークンとして扱い、構文構造を無視している。
さらに、ビデオの空間的および時間的手がかりは、テキストとの相互作用が欠如しているため、しばしば利用されない。
これらの課題に対処するために、ビデオ内の関連時間的フレームや空間的領域に焦点を合わせるためのガイダンスとしてテキストを使うことが有用である、と論じる。
本稿では,2つの視点からモダリティギャップを埋めるために,テキストの固有の意味的階層と構文的階層を利用する,SHE-Net(Syntax-Hierarchy-Enhanced Text-Video Search)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いて、視覚表現のガイドを行う。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
MSR-VTT, MSVD, DiDeMo, ActivityNetの4つの公開テキストビデオ検索データセットについて検討した。
実験結果とアブレーション実験により,提案手法の利点が確認された。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。
我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文 参考訳(メタデータ) (2020-07-29T08:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。