論文の概要: RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval
- arxiv url: http://arxiv.org/abs/2206.12845v1
- Date: Sun, 26 Jun 2022 11:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 09:16:28.545155
- Title: RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval
- Title(参考訳): RoME:テキスト・ビデオ検索のためのロール・アウェア・ミックス・オブ・エクストラルバータ
- Authors: Burak Satar, Hongyuan Zhu, Hanwang Zhang, Joo Hwee Lim
- Abstract要約: そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 66.2075707179047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Seas of videos are uploaded daily with the popularity of social channels;
thus, retrieving the most related video contents with user textual queries
plays a more crucial role. Most methods consider only one joint embedding space
between global visual and textual features without considering the local
structures of each modality. Some other approaches consider multiple embedding
spaces consisting of global and local features separately, ignoring rich
inter-modality correlations.
We propose a novel mixture-of-expert transformer RoME that disentangles the
text and the video into three levels; the roles of spatial contexts, temporal
contexts, and object contexts. We utilize a transformer-based attention
mechanism to fully exploit visual and text embeddings at both global and local
levels with mixture-of-experts for considering inter-modalities and structures'
correlations. The results indicate that our method outperforms the
state-of-the-art methods on the YouCook2 and MSR-VTT datasets, given the same
visual backbone without pre-training. Finally, we conducted extensive ablation
studies to elucidate our design choices.
- Abstract(参考訳): ビデオの海は、ソーシャルチャネルの人気とともに毎日アップロードされるため、最も関連性の高いビデオコンテンツをユーザのテキストクエリで検索することが、より重要な役割を担っている。
ほとんどの方法は、各モダリティの局所構造を考慮せずに、大域的な視覚的特徴とテキスト的特徴の間の単一の埋め込み空間のみを考える。
他のアプローチでは、リッチなモダリティ相関を無視して、大域的特徴と局所的特徴からなる複数の埋め込み空間を考える。
本稿では,テキストと動画を3つのレベル(空間的コンテキスト,時間的コンテキスト,オブジェクトコンテキスト)に切り離す,新しい混合エキスパートトランスフォーマーRoMEを提案する。
本稿では,グローバルレベルとローカルレベルの両方における視覚とテキストの埋め込みを完全に活用するためにトランスフォーマティブ・アテンション・メカニズムを用いて,相互モダリティと構造相関を考察する。
その結果,前訓練を行わずに同じ視覚バックボーンを与えられたyoucook2とmsr-vttデータセットの最先端メソッドを上回った。
最後に,設計選択の解明のために広範囲にわたるアブレーション研究を行った。
関連論文リスト
- Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval [17.443195531553474]
テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-10-29T08:23:40Z) - T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval [59.990432265734384]
テキストビデオ検索は,自然言語記述に基づく関連映像の検索を目的とした課題である。
既存のほとんどのメソッドは、グローバルなクロスモーダル類似性のみを考慮し、ローカルの詳細を見下ろす。
本稿では,効率的なグローバルアライメント手法を設計する。
3つの標準テキスト-ビデオ検索ベンチマークで一貫した改善を達成し、明確なマージンで最先端を上回ります。
論文 参考訳(メタデータ) (2021-04-20T15:26:24Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。