論文の概要: Two-Stream Spatial-Temporal Transformer Framework for Person Identification via Natural Conversational Keypoints
- arxiv url: http://arxiv.org/abs/2502.20803v1
- Date: Fri, 28 Feb 2025 07:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:56.542608
- Title: Two-Stream Spatial-Temporal Transformer Framework for Person Identification via Natural Conversational Keypoints
- Title(参考訳): 自然な会話キーポイントによる人物識別のための2ストリーム時空間変換フレームワーク
- Authors: Masoumeh Chapariniya, Hossein Ranjbar, Teodora Vukovic, Sarah Ebling, Volker Dellwo,
- Abstract要約: オンライン会話中に見える上半身キーポイントを用いた人物識別のための2ストリーム時空間変換フレームワークを提案する。
我々のフレームワークはキーポイント間の空間的関係と,その時間的進化を2つの専門分野を通して処理する。
このフレームワークは、自然会話に従事した114人のデータセットに基づいて評価され、空間ストリームの認識精度は80.12%、時間ストリームの63.61%に達した。
- 参考スコア(独自算出の注目度): 4.108856517459396
- License:
- Abstract: In the age of AI-driven generative technologies, traditional biometric recognition systems face unprecedented challenges, particularly from sophisticated deepfake and face reenactment techniques. In this study, we propose a Two-Stream Spatial-Temporal Transformer Framework for person identification using upper body keypoints visible during online conversations, which we term conversational keypoints. Our framework processes both spatial relationships between keypoints and their temporal evolution through two specialized branches: a Spatial Transformer (STR) that learns distinctive structural patterns in keypoint configurations, and a Temporal Transformer (TTR) that captures sequential motion patterns. Using the state-of-the-art Sapiens pose estimator, we extract 133 keypoints (based on COCO-WholeBody format) representing facial features, head pose, and hand positions. The framework was evaluated on a dataset of 114 individuals engaged in natural conversations, achieving recognition accuracies of 80.12% for the spatial stream, 63.61% for the temporal stream. We then explored two fusion strategies: a shared loss function approach achieving 82.22% accuracy, and a feature-level fusion method that concatenates feature maps from both streams, significantly improving performance to 94.86%. By jointly modeling both static anatomical relationships and dynamic movement patterns, our approach learns comprehensive identity signatures that are more robust to spoofing than traditional appearance-based methods.
- Abstract(参考訳): AIによる生成技術の時代、従来のバイオメトリック認識システムは、特に高度なディープフェイクと顔の再現技術から、前例のない課題に直面している。
本研究では,オンライン会話中に可視な上半身キーポイントを用いた人物識別のための2ストリーム時空間変換フレームワークを提案する。
本フレームワークは,キーポイント間の空間的関係と時間的進化を,キーポイント構成における特徴的構造パターンを学習する空間変換器(STR)と,シーケンシャルな動きパターンをキャプチャするテンポラル変換器(TTR)の2つの専門分野を通して処理する。
最先端のサピエンスポーズ推定器を用いて、顔の特徴、頭部ポーズ、手の位置を表す133個のキーポイント(COCO-WholeBody形式に基づく)を抽出する。
この枠組みは、自然会話に従事した114人のデータセットに基づいて評価され、空間ストリームの認識精度は80.12%、時間ストリームの63.61%であった。
次に、2つの融合戦略について検討した: 82.22%の精度を達成する共有損失関数アプローチと、両方のストリームから特徴マップを結合し、94.86%の性能を著しく向上させる特徴レベル融合手法である。
静的な解剖学的関係と動的運動パターンの両方を共同でモデル化することにより、従来の外見に基づく手法よりも頑丈な包括的アイデンティティシグネチャを学習する。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - GaitMA: Pose-guided Multi-modal Feature Fusion for Gait Recognition [26.721242606715354]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は、Gait Multi-model Aggregation Network (GaitMA)と呼ばれる新しい歩行認識フレームワークを提案する。
まず, 2つのCNN特徴抽出器を用いて, シルエットと骨格の特徴を抽出した。
論文 参考訳(メタデータ) (2024-07-20T09:05:17Z) - Exploring a Multimodal Fusion-based Deep Learning Network for Detecting Facial Palsy [3.2381492754749632]
本稿では,非構造化データと構造化データを用いて顔の麻痺を検知する多モード融合に基づくディープラーニングモデルを提案する。
我々のモデルはリコールスコアの減少を犠牲にして精度を77.05にわずかに改善した。
論文 参考訳(メタデータ) (2024-05-26T09:16:34Z) - A Two-stream Hybrid CNN-Transformer Network for Skeleton-based Human
Interaction Recognition [6.490564374810672]
2ストリームハイブリッドCNN-Transformer Network(THCT-Net)を提案する。
CNNの局所的な特異性を活用し、Transformerを通じてグローバルな依存関係をモデル化する。
提案手法は, 様々な行動の意味と文脈をよりよく理解し, 推測し, 最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-12-31T06:46:46Z) - Spatial-Temporal Knowledge-Embedded Transformer for Video Scene Graph
Generation [64.85974098314344]
映像シーングラフ生成(VidSGG)は、映像シーン内の物体を特定し、その映像との関係を推測することを目的としている。
因みに、オブジェクトペアとその関係は、各画像内の空間的共起相関と、異なる画像間の時間的一貫性/遷移相関を享受する。
本稿では,従来の空間的時間的知識をマルチヘッド・クロスアテンション機構に組み込んだ時空間的知識埋め込み型トランス (STKET) を提案する。
論文 参考訳(メタデータ) (2023-09-23T02:40:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - TNTC: two-stream network with transformer-based complementarity for
gait-based emotion recognition [4.9752798133038585]
歩行に基づく感情認識、特に歩行骨格に基づく特徴は、多くの注目を集めている。
本稿では,TNTCと呼ばれるトランスフォーマーをベースとした新たな2ストリームネットワークを提案する。
2つのストリーム間の相補性を階層的にブリッジするために、新しいトランスフォーマーベースの相補性モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2021-10-26T13:55:31Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。