論文の概要: SEA: Sentence Encoder Assembly for Video Retrieval by Textual Queries
- arxiv url: http://arxiv.org/abs/2011.12091v1
- Date: Tue, 24 Nov 2020 13:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:06:54.667206
- Title: SEA: Sentence Encoder Assembly for Video Retrieval by Textual Queries
- Title(参考訳): SEA: テキストクエリによるビデオ検索のための文エンコーダアセンブリ
- Authors: Xirong Li and Fangming Zhou and Chaoxi Xu and Jiaqi Ji and Gang Yang
- Abstract要約: アドホックビデオ検索(AVS)は、マルチメディアデータ管理と検索における中核的なテーマである。
本稿では,多様な文エンコーダを効果的に活用するための,新しい汎用的手法を提案する。
まず、単一の共通空間のみを使用する先行技術とは違い、SEAは複数のエンコーダ固有の共通空間でテキストビデオマッチングをサポートする。
- 参考スコア(独自算出の注目度): 14.230048035478267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving unlabeled videos by textual queries, known as Ad-hoc Video Search
(AVS), is a core theme in multimedia data management and retrieval. The success
of AVS counts on cross-modal representation learning that encodes both query
sentences and videos into common spaces for semantic similarity computation.
Inspired by the initial success of previously few works in combining multiple
sentence encoders, this paper takes a step forward by developing a new and
general method for effectively exploiting diverse sentence encoders. The
novelty of the proposed method, which we term Sentence Encoder Assembly (SEA),
is two-fold. First, different from prior art that use only a single common
space, SEA supports text-video matching in multiple encoder-specific common
spaces. Such a property prevents the matching from being dominated by a
specific encoder that produces an encoding vector much longer than other
encoders. Second, in order to explore complementarities among the individual
common spaces, we propose multi-space multi-loss learning. As extensive
experiments on four benchmarks (MSR-VTT, TRECVID AVS 2016-2019, TGIF and MSVD)
show, SEA surpasses the state-of-the-art. In addition, SEA is extremely ease to
implement. All this makes SEA an appealing solution for AVS and promising for
continuously advancing the task by harvesting new sentence encoders.
- Abstract(参考訳): Ad-hoc Video Search (AVS)として知られるテキストクエリによる未ラベルの動画の検索は、マルチメディアデータ管理と検索における中核的なテーマである。
AVSの成功は、クエリ文とビデオの両方を、意味的類似性計算のために共通空間にエンコードするクロスモーダル表現学習をカウントする。
本研究は,複数文エンコーダを組み合わさった初期の成果に触発され,多様な文エンコーダを効果的に活用する新しい汎用的手法を開発する。
提案手法の新規性は,SEA(Sentence Encoder Assembly)と呼ばれる2重である。
まず、単一の共通空間のみを使用する先行技術とは異なり、seaは複数のエンコーダ特有の共通空間でテキストビデオマッチングをサポートする。
このような特性は、マッチングが他のエンコーダよりもはるかに長いエンコーダを生成する特定のエンコーダによって支配されるのを防ぐ。
次に,個々の共通空間間の相補性を検討するために,複数空間のマルチロス学習を提案する。
4つのベンチマーク(MSR-VTT、TRECVID AVS 2016-2019、TGIF、MSVD)の広範な実験によると、SEAは最先端のベンチマークを上回っている。
加えて、SEAの実装は非常に簡単です。
これにより、SEAはAVSにとって魅力的なソリューションとなり、新しい文エンコーダの取得によってタスクを継続的に前進させると約束される。
関連論文リスト
- Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Learning to Compose Representations of Different Encoder Layers towards
Improving Compositional Generalization [29.32436551704417]
textscCompoSition (textbfCompose textbfSyntactic and Semanttextbfic Representatextbftions)を提案する。
textscCompoSitionは、2つの総合的で現実的なベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-20T11:16:59Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Dual Encoding for Video Retrieval by Text [49.34356217787656]
本稿では,ビデオやクエリを独自の高密度表現に符号化する2つのディープエンコーディングネットワークを提案する。
まず、特定のシングルレベルエンコーダを利用する先行技術と異なり、提案するネットワークはマルチレベルエンコーダを実行する。
第2に、概念ベースまたは潜在空間ベースのいずれかである従来の共通空間学習アルゴリズムとは異なり、ハイブリッド空間学習を導入する。
論文 参考訳(メタデータ) (2020-09-10T15:49:39Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。