論文の概要: Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
- arxiv url: http://arxiv.org/abs/2401.03177v1
- Date: Sat, 6 Jan 2024 09:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 19:59:16.272799
- Title: Text-Video Retrieval via Variational Multi-Modal Hypergraph Networks
- Title(参考訳): 変分多モーダルハイパーグラフネットワークによるテキスト・ビデオ検索
- Authors: Qian Li, Lixin Su, Jiashu Zhao, Long Xia, Hengyi Cai, Suqi Cheng,
Hengzhu Tang, Junfeng Wang, Dawei Yin
- Abstract要約: テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
本稿では,クエリチャンクを抽出して,特定の検索単位を記述するチャンクレベルのテキストビデオマッチングを提案する。
クェリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルのマッチングを定式化する。
- 参考スコア(独自算出の注目度): 25.96897989272303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval is a challenging task that aims to identify relevant
videos given textual queries. Compared to conventional textual retrieval, the
main obstacle for text-video retrieval is the semantic gap between the textual
nature of queries and the visual richness of video content. Previous works
primarily focus on aligning the query and the video by finely aggregating
word-frame matching signals. Inspired by the human cognitive process of
modularly judging the relevance between text and video, the judgment needs
high-order matching signal due to the consecutive and complex nature of video
contents. In this paper, we propose chunk-level text-video matching, where the
query chunks are extracted to describe a specific retrieval unit, and the video
chunks are segmented into distinct clips from videos. We formulate the
chunk-level matching as n-ary correlations modeling between words of the query
and frames of the video and introduce a multi-modal hypergraph for n-ary
correlation modeling. By representing textual units and video frames as nodes
and using hyperedges to depict their relationships, a multi-modal hypergraph is
constructed. In this way, the query and the video can be aligned in a
high-order semantic space. In addition, to enhance the model's generalization
ability, the extracted features are fed into a variational inference component
for computation, obtaining the variational representation under the Gaussian
distribution. The incorporation of hypergraphs and variational inference allows
our model to capture complex, n-ary interactions among textual and visual
contents. Experimental results demonstrate that our proposed method achieves
state-of-the-art performance on the text-video retrieval task.
- Abstract(参考訳): テキスト・ビデオ検索は、テキストの問い合わせに応じて関連するビデオを特定することを目的とした課題である。
従来のテキスト検索と比較して、テキストビデオ検索の主な障害は、クエリのテキストの性質とビデオコンテンツの視覚的豊かさとのセマンティックなギャップである。
以前の作品は、ワードフレームマッチング信号を細かく集約することで、クエリとビデオの調整に重点を置いていた。
テキストとビデオの関連性をモジュール的に判断する人間の認知プロセスに触発され,映像コンテンツの連続的かつ複雑な性質から,高次マッチング信号が必要である。
本稿では,特定の検索単位を記述するためにクエリチャンクを抽出し,ビデオチャンクをビデオから別のクリップに分割する,チャンクレベルのテキストビデオマッチングを提案する。
クエリの単語とビデオのフレーム間のn-ary相関モデルとしてチャンクレベルマッチングを定式化し,n-ary相関モデリングのためのマルチモーダルハイパーグラフを提案する。
テキスト単位とビデオフレームをノードとして表現し、ハイパーエッジを用いて関係を表現することにより、マルチモーダルハイパーグラフを構築する。
このようにして、クエリとビデオは高次のセマンティック空間に整列することができる。
さらに、モデルの一般化能力を高めるために、抽出された特徴をガウス分布の下での変分表現を得るために、計算のための変分推論成分に供給する。
ハイパーグラフと変分推論を組み込むことで,テキスト・ビジュアルコンテンツ間の複雑な n-ary 相互作用を捉えることができる。
実験の結果,本手法はテキストビデオ検索作業における最先端性能を実現する。
関連論文リスト
- GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。