Fugu-MT 論文翻訳(概要): SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval

論文の概要: SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval

arxiv url: http://arxiv.org/abs/2404.14066v2
Date: Mon, 6 May 2024 13:41:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 22:37:13.504750
Title: SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval
Title（参考訳）: SHE-Net: 構文階層強化テキストビデオ検索
Authors: Xuzheng Yu, Chen Jiang, Xingning Dong, Tian Gan, Ming Yang, Qingpei Guo,
Abstract要約: 我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
参考スコア（独自算出の注目度）: 11.548061962976321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The user base of short video apps has experienced unprecedented growth in recent years, resulting in a significant demand for video content analysis. In particular, text-video retrieval, which aims to find the top matching videos given text descriptions from a vast video corpus, is an essential function, the primary challenge of which is to bridge the modality gap. Nevertheless, most existing approaches treat texts merely as discrete tokens and neglect their syntax structures. Moreover, the abundant spatial and temporal clues in videos are often underutilized due to the lack of interaction with text. To address these issues, we argue that using texts as guidance to focus on relevant temporal frames and spatial regions within videos is beneficial. In this paper, we propose a novel Syntax-Hierarchy-Enhanced text-video retrieval method (SHE-Net) that exploits the inherent semantic and syntax hierarchy of texts to bridge the modality gap from two perspectives. First, to facilitate a more fine-grained integration of visual content, we employ the text syntax hierarchy, which reveals the grammatical structure of text descriptions, to guide the visual representations. Second, to further enhance the multi-modal interaction and alignment, we also utilize the syntax hierarchy to guide the similarity calculation. We evaluated our method on four public text-video retrieval datasets of MSR-VTT, MSVD, DiDeMo, and ActivityNet. The experimental results and ablation studies confirm the advantages of our proposed method.
Abstract（参考訳）: 近年、ショートビデオアプリのユーザーベースは前例のない成長を遂げており、ビデオコンテンツ分析の需要が著しく高まっている。特に、巨大なビデオコーパスからテキスト記述を与えられたトップマッチングビデオを見つけることを目的としたテキストビデオ検索は、重要な機能であり、その主な課題はモダリティギャップを埋めることである。しかし、既存のほとんどのアプローチは、テキストを単に離散トークンとして扱い、構文構造を無視している。さらに、ビデオの空間的および時間的手がかりは、テキストとの相互作用が欠如しているため、しばしば利用されない。これらの課題に対処するために、ビデオ内の関連時間的フレームや空間的領域に焦点を合わせるためのガイダンスとしてテキストを使うことが有用である、と論じる。本稿では,2つの視点からモダリティギャップを埋めるために,テキストの固有の意味的階層と構文的階層を利用する,SHE-Net(Syntax-Hierarchy-Enhanced Text-Video Search)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いて、視覚表現のガイドを行う。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。 MSR-VTT, MSVD, DiDeMo, ActivityNetの4つの公開テキストビデオ検索データセットについて検討した。実験結果とアブレーション実験により,提案手法の利点が確認された。

関連論文リスト

Leveraging Auxiliary Information in Text-to-Video Retrieval: A Review [24.764393859378544]
Text-to-Video(T2V)検索は、ユーザのテキストクエリに基づいて、ビデオギャラリーから最も関連性の高いアイテムを特定することを目的としている。従来の手法は、類似度を計算し、関連する項目を検索するために、ビデオとテキストのモダリティの整合にのみ依存していた。最近の進歩は、検索性能を向上させるために、ビデオとテキストのモダリティから抽出した補助情報を含んでいる。
論文参考訳（メタデータ） (2025-05-29T19:02:48Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval [90.72791786676753]
Video-ColBERTは、クエリとビデオ間の微粒な類似性評価のためのシンプルで効率的なメカニズムを導入している。このインタラクションとトレーニングのパラダイムは、ビデオコンテンツをエンコードするための、強い個人的かつ互換性のある表現につながることが分かっています。これらの表現は、他のバイエンコーダ法と比較して、一般的なテキスト・ビデオ検索ベンチマークのパフォーマンスが向上する。
論文参考訳（メタデータ） (2025-03-24T17:51:29Z)
GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。 GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-14T01:24:09Z)
Unifying Latent and Lexicon Representations for Effective Video-Text Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。 MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文参考訳（メタデータ） (2024-02-26T17:36:50Z)
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文参考訳（メタデータ） (2023-09-16T08:48:21Z)
TVPR: Text-to-Video Person Retrieval and a New Benchmark [10.960048626531993]
本稿では,新しいテキスト・ツー・ビデオ・パーソナリティ検索(TVPR)タスクを提案する。自然言語で人ビデオを記述するデータセットやベンチマークは存在しないため、大規模なクロスモーダル人ビデオデータセットを構築する。 MFGF(Multielement Feature Guided Fragments Learning)戦略を導入する。
論文参考訳（メタデータ） (2023-07-14T06:34:00Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文参考訳（メタデータ） (2023-01-18T12:15:47Z)
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文参考訳（メタデータ） (2022-12-31T11:50:32Z)
Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文参考訳（メタデータ） (2022-11-21T11:08:13Z)
Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文参考訳（メタデータ） (2022-06-06T04:06:21Z)
Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文参考訳（メタデータ） (2021-03-09T08:17:17Z)
Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文参考訳（メタデータ） (2020-07-29T08:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。