論文の概要: Self-attention aggregation network for video face representation and
recognition
- arxiv url: http://arxiv.org/abs/2010.05340v1
- Date: Sun, 11 Oct 2020 20:57:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 13:52:03.696462
- Title: Self-attention aggregation network for video face representation and
recognition
- Title(参考訳): ビデオ顔表現と認識のためのセルフアテンションアグリゲーションネットワーク
- Authors: Ihor Protsenko, Taras Lehinevych, Dmytro Voitekh, Ihor Kroosh, Nick
Hasty, Anthony Johnson
- Abstract要約: 本稿では,自己認識機構に基づく映像顔の表現と認識のための新しいモデルアーキテクチャを提案する。
このアプローチは、シングルおよび複数IDのビデオに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models based on self-attention mechanisms have been successful in analyzing
temporal data and have been widely used in the natural language domain. We
propose a new model architecture for video face representation and recognition
based on a self-attention mechanism. Our approach could be used for video with
single and multiple identities. To the best of our knowledge, no one has
explored the aggregation approaches that consider the video with multiple
identities. The proposed approach utilizes existing models to get the face
representation for each video frame, e.g., ArcFace and MobileFaceNet, and the
aggregation module produces the aggregated face representation vector for video
by taking into consideration the order of frames and their quality scores. We
demonstrate empirical results on a public dataset for video face recognition
called IJB-C to indicate that the self-attention aggregation network (SAAN)
outperforms naive average pooling. Moreover, we introduce a new multi-identity
video dataset based on the publicly available UMDFaces dataset and collected
GIFs from Giphy. We show that SAAN is capable of producing a compact face
representation for both single and multiple identities in a video. The dataset
and source code will be publicly available.
- Abstract(参考訳): 自己注意機構に基づくモデルは、時間的データの解析に成功し、自然言語領域で広く利用されている。
自己着脱機構に基づくビデオ顔表現と認識のための新しいモデルアーキテクチャを提案する。
このアプローチは、シングルおよび複数IDのビデオに使用することができる。
私たちの知る限りでは、複数のidを持つビデオを考える集約アプローチを探求した人はいません。
提案手法では,既存のモデルを用いて各映像フレーム,例えばarcfaceおよびmobilefacenetの表情表現を取得し,アグリゲーションモジュールはフレームの順序とその品質スコアを考慮し,映像の集約された顔表現ベクトルを生成する。
我々は、IJB-Cと呼ばれるビデオ顔認識のための公開データセット上で実験結果を示し、自己注意集約ネットワーク(SAAN)がネイブ平均プールよりも優れていることを示す。
さらに,公開されているUDDFacesデータセットとGiphyから収集したGIFに基づいて,新しいマルチアイデンティティビデオデータセットを提案する。
ビデオにおいて,SAANは単一人物と複数人物の両方に対して,コンパクトな顔表現を生成可能であることを示す。
データセットとソースコードは公開される予定だ。
関連論文リスト
- VideoClusterNet: Self-Supervised and Adaptive Face Clustering For Videos [2.0719478063181027]
Video Face Clusteringは、検出された顔のトラックを共通の顔認証でまとめることを目的としている。
この問題は、ビデオフレームにまたがる特定の顔のポーズ、表情、外観、照明のバリエーションが多岐にわたるため、非常に難しい。
本稿では,ジェネリック・フェイスIDモデルを,完全に自己管理された新しいビデオ・フェイス・トラックに適応させることを学習する,新しいビデオ・フェイス・クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-07-16T23:34:55Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection [17.74528571088335]
我々はMINTIMEというビデオディープフェイク検出手法を導入し、空間的および時間的異常を捉え、同じビデオ内の複数の人のインスタンスと顔サイズの変化を処理します。
複数の人を含むビデオにおいて、最大14%のAUCを改善して、ForgeryNetデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-11-20T15:17:24Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Seq-Masks: Bridging the gap between appearance and gait modeling for
video-based person re-identification [10.490428828061292]
イデオをベースとした人物識別(Re-ID)は、不随意監視カメラが捉えた映像の人物像をマッチングすることを目的としている。
従来のビデオベースのRe-ID手法では、外観情報の探索に重点を置いており、照明の変化、シーンノイズ、カメラパラメータ、特に衣服やキャリーのバリエーションに対して脆弱である。
映像中のシークエンスマスク(SeqMask)を利用して、外観情報と歩行モデリングを密接な方法で統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T16:00:20Z) - Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文 参考訳(メタデータ) (2021-02-10T18:57:52Z) - GroupFace: Learning Latent Groups and Constructing Group-based
Representations for Face Recognition [20.407167858663453]
組込み機能の品質を向上させるために,グループフェイスと呼ばれる新しい顔認識特化アーキテクチャを提案する。
提案手法は,人間のアノテーションを付加せずに各グループに属するサンプル数のバランスをとる自己分散ラベルを提供する。
提案手法のすべてのコンポーネントは、計算複雑性を極端に増加させることなく、エンドツーエンドで訓練することができる。
論文 参考訳(メタデータ) (2020-05-21T07:30:34Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。