論文の概要: Lightweight Attentional Feature Fusion for Video Retrieval by Text
- arxiv url: http://arxiv.org/abs/2112.01832v1
- Date: Fri, 3 Dec 2021 10:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 16:15:46.245638
- Title: Lightweight Attentional Feature Fusion for Video Retrieval by Text
- Title(参考訳): テキストによるビデオ検索のための軽量注意機能融合
- Authors: Fan Hu and Aozhu Chen and Ziyue Wang and Fangming Zhou and Xirong Li
- Abstract要約: 統合フレームワーク内の両端の機能融合を目指しています。
軽量注意機能融合(LAFF)を提案する。
LAFFは、早い段階でも遅い段階でも、ビデオとテキストの両方で機能融合を行う。
- 参考スコア(独自算出の注目度): 7.042239213092635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit \emph{feature fusion}, an old-fashioned topic, in
the new context of video retrieval by text. Different from previous research
that considers feature fusion only at one end, let it be video or text, we aim
for feature fusion for both ends within a unified framework. We hypothesize
that optimizing the convex combination of the features is preferred to modeling
their correlations by computationally heavy multi-head self-attention.
Accordingly, we propose Lightweight Attentional Feature Fusion (LAFF). LAFF
performs feature fusion at both early and late stages and at both video and
text ends, making it a powerful method for exploiting diverse (off-the-shelf)
features. Extensive experiments on four public datasets, i.e. MSR-VTT, MSVD,
TGIF, VATEX, and the large-scale TRECVID AVS benchmark evaluations (2016-2020)
show the viability of LAFF. Moreover, LAFF is extremely simple to implement,
making it appealing for real-world deployment.
- Abstract(参考訳): 本稿では,テキストによるビデオ検索の新しい文脈において,昔ながらのトピックであるemph{feature fusion}を再検討する。
機能融合をひとつの目的のみ、ビデオやテキストとして扱う従来の研究とは違って、統合フレームワークにおける両端の機能融合を目標としています。
特徴の凸結合の最適化は,計算量的に重く,多頭自己照準による相関のモデル化に好適であると仮定した。
そこで,我々はlightweight attentional feature fusion (laff)を提案する。
LAFFは、初期段階と後期の両方で、ビデオとテキストの両端で機能融合を行い、多様な(市販の)機能を利用する強力な方法である。
MSR-VTT、MSVD、TGIF、VATEX、大規模TRECVID AVSベンチマーク(2016-2020)の4つの公開データセットに対する大規模な実験は、LAFFの生存可能性を示している。
さらに、LAFFは実装が非常に簡単で、現実のデプロイメントにも魅力的です。
関連論文リスト
- Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration [27.14686854704104]
句読点復元のためのFeature Fusion two-stream framework (FF2)を提案する。
具体的には、あるストリームは、事前訓練された言語モデルを利用してセマンティック機能をキャプチャし、別の補助モジュールは、手元にある機能をキャプチャする。
追加データなしでは、人気のあるベンチマークIWSLTの実験結果はFF2が新しいSOTA性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-11-09T06:18:17Z) - Interactive Multi-scale Fusion of 2D and 3D Features for Multi-object
Tracking [23.130490413184596]
我々は、PointNet++を導入し、ポイントクラウドのマルチスケールのディープ表現を取得し、提案したInteractive Feature Fusionに適応させる。
提案手法は,KITTIベンチマークにおいて,マルチスケールな特徴融合を使わずに優れた性能を実現し,他の手法よりも優れる。
論文 参考訳(メタデータ) (2022-03-30T13:00:27Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Reference-Aided Part-Aligned Feature Disentangling for Video Person
Re-Identification [18.13546384207381]
異なる部分の頑健な特徴を分離するためのtextbfReference-textbfAided textbfPart-textbfAligned (textbfRAPA) フレームワークを提案する。
両方のモジュールを使用することで、ビデオ中の歩行者の情報的な部分が整列し、より識別的な特徴表現が生成される。
論文 参考訳(メタデータ) (2021-03-21T06:53:57Z) - Dual Semantic Fusion Network for Video Object Detection [35.175552056938635]
外部ガイダンスのない統合融合フレームワークにおいて,フレームレベルとインスタンスレベルの両方のセマンティクスをフル活用するためのデュアルセマンティクス・フュージョン・ネットワーク(DSFNet)を提案する。
提案したDSFNetは、多粒度融合によりより堅牢な特徴を生成でき、外部ガイダンスの不安定性の影響を避けることができる。
論文 参考訳(メタデータ) (2020-09-16T06:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。