論文の概要: Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2110.15609v1
- Date: Fri, 29 Oct 2021 08:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 15:01:27.818115
- Title: Visual Spatio-temporal Relation-enhanced Network for Cross-modal
Text-Video Retrieval
- Title(参考訳): モーダルテキスト検索のための視覚時空間関係強化ネットワーク
- Authors: Ning Han, Jingjing Chen, Guangyi Xiao, Yawen Zeng, Chuhao Shi, Hao
Chen
- Abstract要約: テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。
本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。
MSR-VTTおよびMSVDデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 17.443195531553474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of cross-modal retrieval between texts and videos aims to understand
the correspondence between vision and language. Existing studies follow a trend
of measuring text-video similarity on the basis of textual and video
embeddings. In common practice, video representation is constructed by feeding
video frames into 2D/3D-CNN for global visual feature extraction or only
learning simple semantic relations by using local-level fine-grained frame
regions via graph convolutional network. However, these video representations
do not fully exploit spatio-temporal relation among visual components in
learning video representations, resulting in their inability to distinguish
videos with the same visual components but with different relations. To solve
this problem, we propose a Visual Spatio-temporal Relation-enhanced Network
(VSR-Net), a novel cross-modal retrieval framework that enhances visual
representation with spatio-temporal relations among components. Specifically,
visual spatio-temporal relations are encoded using a multi-layer
spatio-temporal transformer to learn visual relational features. We combine
fine-grained local relation and global features in bridging text-video
modalities. Extensive experimental are conducted on both MSR-VTT and MSVD
datasets. The results demonstrate the effectiveness of our proposed model.
- Abstract(参考訳): テキストとビデオ間のクロスモーダル検索の課題は、視覚と言語との対応を理解することである。
既存の研究は、テキストとビデオの埋め込みに基づいて、テキストとビデオの類似度を測定する傾向にある。
ビデオ表現は、グローバルな視覚特徴抽出のために2D/3D-CNNに映像フレームを供給したり、あるいはグラフ畳み込みネットワークを介して局所的なきめ細かいフレーム領域を用いて単純な意味関係を学習することで構成される。
しかし、これらのビデオ表現は、ビデオ表現の学習における視覚成分間の時空間的関係を完全に活用していないため、同一の視覚成分と異なる関係を持つ映像を区別することができない。
そこで,本稿では,コンポーネント間の時空間関係を用いた視覚的表現能力を向上させる新しいクロスモーダル検索フレームワークであるvsr-netを提案する。
具体的には、視覚時空間関係を多層時空間変換器を用いて符号化し、視覚関係の特徴を学習する。
テキスト・ビデオ・モダリティの微細な局所的関係とグローバルな特徴を組み合わせる。
MSR-VTTデータセットとMSVDデータセットの両方で大規模な実験が行われた。
その結果,提案モデルの有効性が示された。
関連論文リスト
- Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。
我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-21T13:30:33Z) - Exploiting Visual Semantic Reasoning for Video-Text Retrieval [14.466809435818984]
フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。
ランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い、意味的関係に関わる領域の特徴を生成する。
推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。
論文 参考訳(メタデータ) (2020-06-16T02:56:46Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。