Fugu-MT 論文翻訳(概要): Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval

論文の概要: Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval

arxiv url: http://arxiv.org/abs/2110.15609v1
Date: Fri, 29 Oct 2021 08:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-01 15:01:27.818115
Title: Visual Spatio-temporal Relation-enhanced Network for Cross-modal Text-Video Retrieval
Title（参考訳）: モーダルテキスト検索のための視覚時空間関係強化ネットワーク
Authors: Ning Han, Jingjing Chen, Guangyi Xiao, Yawen Zeng, Chuhao Shi, Hao Chen
Abstract要約: テキストとビデオのクロスモーダル検索は、視覚と言語との対応を理解することを目的としている。本稿では,時間横断検索フレームワークであるVisual S-temporal Relation-enhanced semantic network (CNN-SRNet)を提案する。 MSR-VTTおよびMSVDデータセットで実験を行う。
参考スコア（独自算出の注目度）: 17.443195531553474
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The task of cross-modal retrieval between texts and videos aims to understand the correspondence between vision and language. Existing studies follow a trend of measuring text-video similarity on the basis of textual and video embeddings. In common practice, video representation is constructed by feeding video frames into 2D/3D-CNN for global visual feature extraction or only learning simple semantic relations by using local-level fine-grained frame regions via graph convolutional network. However, these video representations do not fully exploit spatio-temporal relation among visual components in learning video representations, resulting in their inability to distinguish videos with the same visual components but with different relations. To solve this problem, we propose a Visual Spatio-temporal Relation-enhanced Network (VSR-Net), a novel cross-modal retrieval framework that enhances visual representation with spatio-temporal relations among components. Specifically, visual spatio-temporal relations are encoded using a multi-layer spatio-temporal transformer to learn visual relational features. We combine fine-grained local relation and global features in bridging text-video modalities. Extensive experimental are conducted on both MSR-VTT and MSVD datasets. The results demonstrate the effectiveness of our proposed model.
Abstract（参考訳）: テキストとビデオ間のクロスモーダル検索の課題は、視覚と言語との対応を理解することである。既存の研究は、テキストとビデオの埋め込みに基づいて、テキストとビデオの類似度を測定する傾向にある。ビデオ表現は、グローバルな視覚特徴抽出のために2D/3D-CNNに映像フレームを供給したり、あるいはグラフ畳み込みネットワークを介して局所的なきめ細かいフレーム領域を用いて単純な意味関係を学習することで構成される。しかし、これらのビデオ表現は、ビデオ表現の学習における視覚成分間の時空間的関係を完全に活用していないため、同一の視覚成分と異なる関係を持つ映像を区別することができない。そこで,本稿では,コンポーネント間の時空間関係を用いた視覚的表現能力を向上させる新しいクロスモーダル検索フレームワークであるvsr-netを提案する。具体的には、視覚時空間関係を多層時空間変換器を用いて符号化し、視覚関係の特徴を学習する。テキスト・ビデオ・モダリティの微細な局所的関係とグローバルな特徴を組み合わせる。 MSR-VTTデータセットとMSVDデータセットの両方で大規模な実験が行われた。その結果,提案モデルの有効性が示された。

関連論文リスト

OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment [5.215417164787923]
視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
論文参考訳（メタデータ） (2025-03-12T14:13:17Z)
Video-Language Alignment via Spatio-Temporal Graph Transformer [26.109883502401885]
ビデオ言語アライメントは、ビデオテキスト検索や質問応答など、下流の様々なアプリケーションに恩恵をもたらす重要なタスクである。本研究では,ビデオ言語アライメント事前学習のための空間的・時間的文脈を均一に学習する新しい時空間グラフトランスフォーマモジュールを提案する。
論文参考訳（メタデータ） (2024-07-16T12:52:32Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文参考訳（メタデータ） (2024-06-03T21:14:53Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文参考訳（メタデータ） (2023-02-28T19:29:05Z)
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文参考訳（メタデータ） (2021-10-12T14:59:25Z)
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP [13.270902407320005]
本稿では、CLIP2Videoネットワークを用いて、画像言語学習モデルをエンドツーエンドでビデオテキスト検索に転送する。我々は,テキスト・ツー・ビデオ・トゥ・テキスト・検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-06-21T13:30:33Z)
Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。 CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文参考訳（メタデータ） (2020-04-10T10:23:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。