論文の概要: Lightweight Attentional Feature Fusion for Video Retrieval by Text
- arxiv url: http://arxiv.org/abs/2112.01832v1
- Date: Fri, 3 Dec 2021 10:41:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-06 16:15:46.245638
- Title: Lightweight Attentional Feature Fusion for Video Retrieval by Text
- Title(参考訳): テキストによるビデオ検索のための軽量注意機能融合
- Authors: Fan Hu and Aozhu Chen and Ziyue Wang and Fangming Zhou and Xirong Li
- Abstract要約: 統合フレームワーク内の両端の機能融合を目指しています。
軽量注意機能融合(LAFF)を提案する。
LAFFは、早い段階でも遅い段階でも、ビデオとテキストの両方で機能融合を行う。
- 参考スコア(独自算出の注目度): 7.042239213092635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit \emph{feature fusion}, an old-fashioned topic, in
the new context of video retrieval by text. Different from previous research
that considers feature fusion only at one end, let it be video or text, we aim
for feature fusion for both ends within a unified framework. We hypothesize
that optimizing the convex combination of the features is preferred to modeling
their correlations by computationally heavy multi-head self-attention.
Accordingly, we propose Lightweight Attentional Feature Fusion (LAFF). LAFF
performs feature fusion at both early and late stages and at both video and
text ends, making it a powerful method for exploiting diverse (off-the-shelf)
features. Extensive experiments on four public datasets, i.e. MSR-VTT, MSVD,
TGIF, VATEX, and the large-scale TRECVID AVS benchmark evaluations (2016-2020)
show the viability of LAFF. Moreover, LAFF is extremely simple to implement,
making it appealing for real-world deployment.
- Abstract(参考訳): 本稿では,テキストによるビデオ検索の新しい文脈において,昔ながらのトピックであるemph{feature fusion}を再検討する。
機能融合をひとつの目的のみ、ビデオやテキストとして扱う従来の研究とは違って、統合フレームワークにおける両端の機能融合を目標としています。
特徴の凸結合の最適化は,計算量的に重く,多頭自己照準による相関のモデル化に好適であると仮定した。
そこで,我々はlightweight attentional feature fusion (laff)を提案する。
LAFFは、初期段階と後期の両方で、ビデオとテキストの両端で機能融合を行い、多様な(市販の)機能を利用する強力な方法である。
MSR-VTT、MSVD、TGIF、VATEX、大規模TRECVID AVSベンチマーク(2016-2020)の4つの公開データセットに対する大規模な実験は、LAFFの生存可能性を示している。
さらに、LAFFは実装が非常に簡単で、現実のデプロイメントにも魅力的です。
関連論文リスト
- Fusion Matters: Learning Fusion in Deep Click-through Rate Prediction Models [27.477136474888564]
本稿では,接続学習と操作選択の両方を包含して,融合学習を自動化する手法であるOpsFusionを紹介する。
実験は3つの大規模データセット上で実施される。
論文 参考訳(メタデータ) (2024-11-24T06:21:59Z) - AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - An Intermediate Fusion ViT Enables Efficient Text-Image Alignment in Diffusion Models [18.184158874126545]
異なる融合戦略が視覚言語アライメントにどのように影響するかを検討する。
特別に設計された中間融合により、テキストと画像のアライメントが向上し、生成品質が向上する。
このモデルでは, FLOPを20%削減し, トレーニング速度を50%向上させるとともに, より高いCLIPスコアと低いFIDを実現する。
論文 参考訳(メタデータ) (2024-03-25T08:16:06Z) - Unified Coarse-to-Fine Alignment for Video-Text Retrieval [71.85966033484597]
UCoFiAと呼ばれる統一粗粒配向モデルを提案する。
我々のモデルは、異なる粒度レベルで、モーダル間の類似情報をキャプチャする。
そこで,Sinkhorn-Knoppアルゴリズムを用いて各レベルの類似性を正規化し,それらを要約する。
論文 参考訳(メタデータ) (2023-09-18T19:04:37Z) - DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。
我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。
これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文 参考訳(メタデータ) (2023-03-17T10:07:19Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration [27.14686854704104]
句読点復元のためのFeature Fusion two-stream framework (FF2)を提案する。
具体的には、あるストリームは、事前訓練された言語モデルを利用してセマンティック機能をキャプチャし、別の補助モジュールは、手元にある機能をキャプチャする。
追加データなしでは、人気のあるベンチマークIWSLTの実験結果はFF2が新しいSOTA性能を達成することを実証している。
論文 参考訳(メタデータ) (2022-11-09T06:18:17Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。