Fugu-MT 論文翻訳(概要): Frame Aggregation and Multi-Modal Fusion Framework for Video-Based Person Recognition

論文の概要: Frame Aggregation and Multi-Modal Fusion Framework for Video-Based Person Recognition

arxiv url: http://arxiv.org/abs/2010.09290v2
Date: Wed, 30 Dec 2020 09:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 22:51:37.550015
Title: Frame Aggregation and Multi-Modal Fusion Framework for Video-Based Person Recognition
Title（参考訳）: ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョンフレームワーク
Authors: Fangtao Li, Wenzhe Wang, Zihe Liu, Haoran Wang, Chenghao Yan, Bin Wu
Abstract要約: ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。 FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
参考スコア（独自算出の注目度）: 13.875674649636874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-based person recognition is challenging due to persons being blocked and blurred, and the variation of shooting angle. Previous research always focused on person recognition on still images, ignoring similarity and continuity between video frames. To tackle the challenges above, we propose a novel Frame Aggregation and Multi-Modal Fusion (FAMF) framework for video-based person recognition, which aggregates face features and incorporates them with multi-modal information to identify persons in videos. For frame aggregation, we propose a novel trainable layer based on NetVLAD (named AttentionVLAD), which takes arbitrary number of features as input and computes a fixed-length aggregation feature based on feature quality. We show that introducing an attention mechanism to NetVLAD can effectively decrease the impact of low-quality frames. For the multi-model information of videos, we propose a Multi-Layer Multi-Modal Attention (MLMA) module to learn the correlation of multi-modality by adaptively updating Gram matrix. Experimental results on iQIYI-VID-2019 dataset show that our framework outperforms other state-of-the-art methods.
Abstract（参考訳）: 映像ベースの人物認識は、人物がブロックされぼやけられ、撮影角度が変化するため困難である。以前の研究では常に静止画の人物認識に焦点が当てられ、ビデオフレーム間の類似性と連続性を無視していた。上記の課題に対処するために,顔の特徴を集約し,映像中の人物を特定するためのマルチモーダル情報を含む,ビデオベースの人物認識のための新しいフレーム集約・マルチモーダルフュージョン(FAMF)フレームワークを提案する。フレームアグリゲーションのために,任意の数の特徴を入力として,特徴品質に基づいて固定長アグリゲーションを演算する,netvlad( attentionvlad)に基づく新しい学習可能な層を提案する。本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。ビデオのマルチモデル情報について,多層マルチモーダルアテンション(MLMA)モジュールを提案する。 iQIYI-VID-2019データセットの実験結果から,我々のフレームワークは他の最先端手法よりも優れた性能を示した。

関連論文リスト

A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文参考訳（メタデータ） (2024-07-19T08:51:51Z)
Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文参考訳（メタデータ） (2024-02-06T06:27:40Z)
VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文参考訳（メタデータ） (2023-12-04T19:48:02Z)
UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2023-08-28T08:20:30Z)
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。 MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文参考訳（メタデータ） (2022-12-19T15:05:40Z)
Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。 MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。 MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文参考訳（メタデータ） (2022-07-05T05:14:15Z)
Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。 MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。 PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文参考訳（メタデータ） (2022-05-09T06:28:56Z)
DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。 DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。 MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文参考訳（メタデータ） (2021-05-13T17:33:26Z)
Temporal Context Aggregation for Video Retrieval with Contrastive Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文参考訳（メタデータ） (2020-08-04T05:24:20Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。