論文の概要: HunYuan_tvr for Text-Video Retrivial
- arxiv url: http://arxiv.org/abs/2204.03382v1
- Date: Thu, 7 Apr 2022 11:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 22:33:40.893897
- Title: HunYuan_tvr for Text-Video Retrivial
- Title(参考訳): テキストビデオ用hunyuan_tvr
- Authors: Shaobo Min, Weijie Kong, Rong-Cheng Tu, Dihong Gong, Chengfei Cai,
Wenzhe Zhao, Chenyang Liu, Sixiao Zheng, Hongfa Wang, Zhifeng Li, Wei Liu
- Abstract要約: HunYuan_tvrはビデオ文、クリップフレーズ、フレームワード関係を同時に探索することで階層的相互モーダル相互作用を探索する。
HunYuan_tvr は、それぞれ MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet の Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% といった様々なベンチマークで、新しい最先端の結果を得る。
- 参考スコア(独自算出の注目度): 23.650824732136158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-Video Retrieval plays an important role in multi-modal understanding and
has attracted increasing attention in recent years. Most existing methods focus
on constructing contrastive pairs between whole videos and complete caption
sentences, while ignoring fine-grained cross-modal relationships, e.g., short
clips and phrases or single frame and word. In this paper, we propose a novel
method, named HunYuan\_tvr, to explore hierarchical cross-modal interactions by
simultaneously exploring video-sentence, clip-phrase, and frame-word
relationships. Considering intrinsic semantic relations between frames,
HunYuan\_tvr first performs self-attention to explore frame-wise correlations
and adaptively clusters correlated frames into clip-level representations.
Then, the clip-wise correlation is explored to aggregate clip representations
into a compact one to describe the video globally. In this way, we can
construct hierarchical video representations for frame-clip-video
granularities, and also explore word-wise correlations to form
word-phrase-sentence embeddings for the text modality. Finally, hierarchical
contrastive learning is designed to explore cross-modal
relationships,~\emph{i.e.,} frame-word, clip-phrase, and video-sentence, which
enables HunYuan\_tvr to achieve a comprehensive multi-modal understanding.
Further boosted by adaptive label denosing and marginal sample enhancement,
HunYuan\_tvr obtains new state-of-the-art results on various benchmarks, e.g.,
Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, and 57.3% on MSR-VTT, MSVD, LSMDC,
DiDemo, and ActivityNet respectively.
- Abstract(参考訳): テキストビデオ検索はマルチモーダル理解において重要な役割を担い、近年注目を集めている。
既存のほとんどの手法は、ビデオ全体と完全な字幕文間のコントラスト的なペアの構築に重点を置いており、例えば短いクリップやフレーズや単一のフレームや単語のような細粒度の相互関係を無視している。
本稿では,ビデオ文,クリップフレーズ,フレームワード関係を同時に探索することにより,階層的相互モーダル相互作用を探索する,HunYuan\_tvrという新しい手法を提案する。
HunYuan\_tvrはフレーム間の本質的な意味関係を考慮し、まずフレームワイドな相関を探索し、相関したフレームをクリップレベルの表現に適応的にクラスタリングする。
そこで, クリップワイド相関を用いて, クリップ表現をコンパクトに集約し, 映像を世界規模で表現する。
このように、フレーム・クリップ・ビデオの粒度に対する階層的なビデオ表現を構築し、単語間の相関を探索し、テキストモダリティのためのワード・フレーズ・センテンス埋め込みを形成することができる。
最後に、階層的コントラスト学習は、フレームワード、クリップフレーズ、ビデオセンテンスといったクロスモーダル関係を探索するために設計されており、hunyuan\_tvrが包括的なマルチモーダル理解を達成することができる。
HunYuan\_tvrは、アダプティブラベルのデノシングと限界サンプルの強化によってさらに強化され、様々なベンチマークで、例えば、Right@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% on MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNetなど、新しい最先端の結果が得られる。
関連論文リスト
- SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。