論文の概要: Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2110.15609v1
- Date: Fri, 29 Oct 2021 08:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 15:01:27.818115
- Title: Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval
- Title(参考訳): モーダルテキスト検索のための視覚時空間関係強化ネットワーク
- Authors: Ning Han, Jingjing Chen, Guangyi Xiao, Yawen Zeng, Chuhao Shi, Hao
Chen
- Abstract要約: テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 17.443195531553474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of cross-modal retrieval between texts and videos aims to understand
the correspondence between vision and language. Existing studies follow a trend
of measuring text-video similarity on the basis of textual and video
embeddings. In common practice, video representation is constructed by feeding
video frames into 2D/3D-CNN for global visual feature extraction or only
learning simple semantic relations by using local-level fine-grained frame
regions via graph convolutional network. However, these video representations
do not fully exploit spatio-temporal relation among visual components in
learning video representations, resulting in their inability to distinguish
videos with the same visual components but with different relations. To solve
this problem, we propose a Visual Spatio-temporal Relation-enhanced Network
(VSR-Net), a novel cross-modal retrieval framework that enhances visual
representation with spatio-temporal relations among components. Specifically,
visual spatio-temporal relations are encoded using a multi-layer
spatio-temporal transformer to learn visual relational features. We combine
fine-grained local relation and global features in bridging text-video
modalities. Extensive experimental are conducted on both MSR-VTT and MSVD
datasets. The results demonstrate the effectiveness of our proposed model.
- Abstract(参考訳): テキストとビデオ間のクロスモーダル検索の課題は、視覚と言語との対応を理解することである。
既存の研究は、テキストとビデオの埋め込みに基づいて、テキストとビデオの類似度を測定する傾向にある。
ビデオ表現は、グローバルな視覚特徴抽出のために2D/3D-CNNに映像フレームを供給したり、あるいはグラフ畳み込みネットワークを介して局所的なきめ細かいフレーム領域を用いて単純な意味関係を学習することで構成される。
しかし、これらのビデオ表現は、ビデオ表現の学習における視覚成分間の時空間的関係を完全に活用していないため、同一の視覚成分と異なる関係を持つ映像を区別することができない。
そこで,本稿では,コンポーネント間の時空間関係を用いた視覚的表現能力を向上させる新しいクロスモーダル検索フレームワークであるvsr-netを提案する。
具体的には、視覚時空間関係を多層時空間変換器を用いて符号化し、視覚関係の特徴を学習する。
テキスト・ビデオ・モダリティの微細な局所的関係とグローバルな特徴を組み合わせる。
MSR-VTTデータセットとMSVDデータセットの両方で大規模な実験が行われた。
その結果,提案モデルの有効性が示された。
関連論文リスト
- Video-Language Alignment via Spatio-Temporal Graph Transformer [26.109883502401885]
ビデオ言語アライメントは、ビデオテキスト検索や質問応答など、下流の様々なアプリケーションに恩恵をもたらす重要なタスクである。
本研究では,ビデオ言語アライメント事前学習のための空間的・時間的文脈を均一に学習する新しい時空間グラフトランスフォーマモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-16T12:52:32Z) - MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。