論文の概要: Dual Encoding for Video Retrieval by Text
- arxiv url: http://arxiv.org/abs/2009.05381v2
- Date: Thu, 18 Feb 2021 09:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 04:19:41.899108
- Title: Dual Encoding for Video Retrieval by Text
- Title(参考訳): テキストによるビデオ検索のためのデュアルエンコーディング
- Authors: Jianfeng Dong, Xirong Li, Chaoxi Xu, Xun Yang, Gang Yang, Xun Wang,
Meng Wang
- Abstract要約: 本稿では,ビデオやクエリを独自の高密度表現に符号化する2つのディープエンコーディングネットワークを提案する。
まず、特定のシングルレベルエンコーダを利用する先行技術と異なり、提案するネットワークはマルチレベルエンコーダを実行する。
第2に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、ハイブリッド空間学習を導入する。
- 参考スコア(独自算出の注目度): 49.34356217787656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper attacks the challenging problem of video retrieval by text. In
such a retrieval paradigm, an end user searches for unlabeled videos by ad-hoc
queries described exclusively in the form of a natural-language sentence, with
no visual example provided. Given videos as sequences of frames and queries as
sequences of words, an effective sequence-to-sequence cross-modal matching is
crucial. To that end, the two modalities need to be first encoded into
real-valued vectors and then projected into a common space. In this paper we
achieve this by proposing a dual deep encoding network that encodes videos and
queries into powerful dense representations of their own. Our novelty is
two-fold. First, different from prior art that resorts to a specific
single-level encoder, the proposed network performs multi-level encoding that
represents the rich content of both modalities in a coarse-to-fine fashion.
Second, different from a conventional common space learning algorithm which is
either concept based or latent space based, we introduce hybrid space learning
which combines the high performance of the latent space and the good
interpretability of the concept space. Dual encoding is conceptually simple,
practically effective and end-to-end trained with hybrid space learning.
Extensive experiments on four challenging video datasets show the viability of
the new method.
- Abstract(参考訳): 本稿では,テキストによる映像検索の課題について述べる。
このような検索パラダイムにおいて、エンドユーザは、自然言語文の形でのみ記述されたアドホックなクエリにより、視覚的な例のない未ラベルの動画を検索する。
フレームのシーケンスとしてビデオが与えられ、クエリが単語のシーケンスとして与えられると、効果的なシーケンス間のクロスモーダルマッチングが不可欠である。
そのためには、2つのモダリティをまず実数値ベクトルに符号化し、次に共通空間に射影する必要がある。
本稿では,ビデオと問合せを強密な表現にエンコードする2重ディープエンコーディングネットワークを提案する。
私たちの目新しさは2倍です。
まず、特定の単一レベルエンコーダを利用する先行技術とは異なり、提案ネットワークは、粗い方法で両モードのリッチな内容を表すマルチレベルエンコーダを実行する。
第二に、概念ベースまたは潜在空間ベースである従来の共通空間学習アルゴリズムとは違い、潜在空間の高性能性と概念空間の良好な解釈性を組み合わせたハイブリッド空間学習を導入する。
デュアルエンコーディングは概念的にシンプルで、実質的に有効であり、ハイブリッド空間学習でエンドツーエンドに訓練される。
4つの挑戦的ビデオデータセットに関する広範囲な実験により、新しい手法の有効性が示された。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - SEA: Sentence Encoder Assembly for Video Retrieval by Textual Queries [14.230048035478267]
アドホックビデオ検索(AVS)は、マルチメディアデータ管理と検索における中核的なテーマである。
本稿では,多様な文エンコーダを効果的に活用するための,新しい汎用的手法を提案する。
まず、単一の共通空間のみを使用する先行技術とは違い、SEAは複数のエンコーダ固有の共通空間でテキストビデオマッチングをサポートする。
論文 参考訳(メタデータ) (2020-11-24T13:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。