論文の概要: Beyond Appearance: Transformer-based Person Identification from Conversational Dynamics
- arxiv url: http://arxiv.org/abs/2510.04753v1
- Date: Mon, 06 Oct 2025 12:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.848228
- Title: Beyond Appearance: Transformer-based Person Identification from Conversational Dynamics
- Title(参考訳): 対訳ダイナミクスによるトランスフォーマーに基づく人物識別
- Authors: Masoumeh Chapariniya, Teodora Vukovic, Sarah Ebling, Volker Dellwo,
- Abstract要約: 133COCOWholeBodyキーポイントの空間的構成と時間的動きパターンを別々にモデル化した2ストリームフレームワークの実装と評価を行った。
実験では, 事前学習とオフスクラッチトレーニングを比較し, 速度特性の利用について検討し, 階層型動作モデリングのためのマルチスケール時間変換器を導入する。
その結果、ドメイン固有の訓練は、伝達学習を著しく上回り、空間的構成は時間的ダイナミクスよりも差別的な情報を運ぶことがわかった。
- 参考スコア(独自算出の注目度): 5.920768116941384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the performance of transformer-based architectures for person identification in natural, face-to-face conversation scenario. We implement and evaluate a two-stream framework that separately models spatial configurations and temporal motion patterns of 133 COCO WholeBody keypoints, extracted from a subset of the CANDOR conversational corpus. Our experiments compare pre-trained and from-scratch training, investigate the use of velocity features, and introduce a multi-scale temporal transformer for hierarchical motion modeling. Results demonstrate that domain-specific training significantly outperforms transfer learning, and that spatial configurations carry more discriminative information than temporal dynamics. The spatial transformer achieves 95.74% accuracy, while the multi-scale temporal transformer achieves 93.90%. Feature-level fusion pushes performance to 98.03%, confirming that postural and dynamic information are complementary. These findings highlight the potential of transformer architectures for person identification in natural interactions and provide insights for future multimodal and cross-cultural studies.
- Abstract(参考訳): 本稿では,自然な対面会話シナリオにおける人物識別のためのトランスフォーマーアーキテクチャの性能について検討する。
CANDOR会話コーパスのサブセットから抽出した133COCO WholeBodyキーポイントの空間的構成と時間的動きパターンを別々にモデル化した2ストリームフレームワークの実装と評価を行った。
実験では, 事前学習とオフスクラッチトレーニングを比較し, 速度特性の利用について検討し, 階層型動作モデリングのためのマルチスケール時間変換器を導入する。
その結果、ドメイン固有の訓練は伝達学習を著しく上回り、空間的構成は時間的ダイナミクスよりも差別的な情報を運ぶことがわかった。
空間変換器の精度は95.74%、マルチスケールの時間変換器の精度は93.90%である。
特徴レベルの融合は性能を98.03%に押し上げ、姿勢情報と動的情報が相補的であることを確認した。
これらの知見は、自然対話における人物識別のためのトランスフォーマーアーキテクチャの可能性を強調し、将来の多言語・異文化研究のための洞察を提供する。
関連論文リスト
- Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [42.60778405812048]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。
FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文 参考訳(メタデータ) (2025-06-10T18:40:20Z) - Knowledge-enhanced Transformer for Multivariate Long Sequence Time-series Forecasting [4.645182684813973]
本研究では,変数間の概念的関係をよく定義された知識グラフ内にカプセル化する新しい手法を提案する。
PatchTST, Autoformer, Informer, Vanilla Transformer などのセマンティックアーキテクチャへの統合の影響について検討する。
この拡張により、変数間の固有の構造的関係に対処するトランスフォーマーベースのアーキテクチャが強化される。
論文 参考訳(メタデータ) (2024-11-17T11:53:54Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - TempoFormer: A Transformer for Temporally-aware Representations in Change Detection [12.063146420389371]
本研究では,動的表現学習のためのタスク依存型トランスフォーマーと時間認識型モデルであるTempoFormerを紹介する。
本手法はコンテキスト間の動的および内部的力学を共同で訓練し,回転位置埋め込みの時間的変化を新たに導入する。
3つの異なるリアルタイム変化検出タスクに対して新しいSOTA性能を示す。
論文 参考訳(メタデータ) (2024-08-28T10:25:53Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Learning Causal Domain-Invariant Temporal Dynamics for Few-Shot Action Recognition [12.522600594024112]
少ないショットアクション認識は、トレーニング済みのモデルを新しいデータに迅速に適応することを目的としている。
主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。
知識伝達のためのCDTD(Causal Domain-Invariant Temporal Dynamics)を提案する。
論文 参考訳(メタデータ) (2024-02-20T04:09:58Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Multiple Object Tracking with Correlation Learning [16.959379957515974]
本研究では,局所相関モジュールを用いて,対象と周辺環境のトポロジカルな関係をモデル化する。
具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。
提案手法は, 相関学習と優れた性能の相関学習の有効性を示し, MOT17では76.5%, IDF1では73.6%の最先端MOTAが得られる。
論文 参考訳(メタデータ) (2021-04-08T06:48:02Z) - AutoTrans: Automating Transformer Design via Reinforced Architecture
Search [52.48985245743108]
本稿では,手作業に適したトランスフォーマーアーキテクチャを実現するために,レイヤノルムの設定方法,スケール,レイヤ数,ヘッド数,アクティベーション関数などを実証的に検討する。
CoNLL03、Multi-30k、IWSLT14、WMT-14の実験は、探索されたトランスモデルが標準トランスモデルより優れていることを示している。
論文 参考訳(メタデータ) (2020-09-04T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。