論文の概要: Semantic Role Aware Correlation Transformer for Text to Video Retrieval
- arxiv url: http://arxiv.org/abs/2206.12849v1
- Date: Sun, 26 Jun 2022 11:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 08:57:13.669546
- Title: Semantic Role Aware Correlation Transformer for Text to Video Retrieval
- Title(参考訳): テキストからビデオ検索のための意味的役割認識相関変換器
- Authors: Burak Satar, Hongyuan Zhu, Xavier Bresson, Joo Hwee Lim
- Abstract要約: 本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
- 参考スコア(独自算出の注目度): 23.183653281610866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the emergence of social media, voluminous video clips are uploaded every
day, and retrieving the most relevant visual content with a language query
becomes critical. Most approaches aim to learn a joint embedding space for
plain textual and visual contents without adequately exploiting their
intra-modality structures and inter-modality correlations. This paper proposes
a novel transformer that explicitly disentangles the text and video into
semantic roles of objects, spatial contexts and temporal contexts with an
attention scheme to learn the intra- and inter-role correlations among the
three roles to discover discriminative features for matching at different
levels. The preliminary results on popular YouCook2 indicate that our approach
surpasses a current state-of-the-art method, with a high margin in all metrics.
It also overpasses two SOTA methods in terms of two metrics.
- Abstract(参考訳): ソーシャルメディアが出現すると、毎日ビデオクリップがアップロードされ、最も関連性の高いビジュアルコンテンツを言語クエリで検索することが重要になる。
ほとんどのアプローチは、モダリティ内構造とモダリティ間の相関を十分に活用することなく、プレーンテキストとビジュアルコンテンツの埋め込み空間を学ぶことを目的としている。
本稿では,テキストと映像を,対象,空間的文脈,時間的文脈の意味的役割に明示的に区別し,これら3つの役割間の内的・内的相関を学習し,異なるレベルでマッチングする識別的特徴を探索する,新しいトランスフォーマを提案する。
人気の高いYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超えていることを示している。
また、2つのメトリクスの観点から2つのSOTAメソッドを超越する。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Multi-Granularity Cross-Modality Representation Learning for Named
Entity Recognition on Social Media [11.235498285650142]
ソーシャルメディア上の名前付きエンティティ認識(NER)とは、構造化されていない自由なコンテンツからエンティティを発見し分類することを指す。
本研究は,多粒性クロスモダリティ表現学習を導入する。
実験の結果,提案手法は2つのツイートのベンチマークデータセット上でSOTAあるいはSOTAの性能を近似することができることがわかった。
論文 参考訳(メタデータ) (2022-10-19T15:14:55Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。