論文の概要: DisenQ: Disentangling Q-Former for Activity-Biometrics
- arxiv url: http://arxiv.org/abs/2507.07262v1
- Date: Wed, 09 Jul 2025 20:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.198771
- Title: DisenQ: Disentangling Q-Former for Activity-Biometrics
- Title(参考訳): DisenQ: アクティビティバイオメトリックスのための拡張型Q-Former
- Authors: Shehreen Azad, Yogesh S Rawat,
- Abstract要約: textbfDisenQ (textbfDisentangling textbfQ-Former) はバイオメトリックス、モーション、非バイオメトリックス機能をアンタングルする統合クエリ変換器である。
我々は,3つのアクティビティベースビデオベンチマークに対するアプローチを評価し,最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 14.174192604480599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address activity-biometrics, which involves identifying individuals across diverse set of activities. Unlike traditional person identification, this setting introduces additional challenges as identity cues become entangled with motion dynamics and appearance variations, making biometrics feature learning more complex. While additional visual data like pose and/or silhouette help, they often struggle from extraction inaccuracies. To overcome this, we propose a multimodal language-guided framework that replaces reliance on additional visual data with structured textual supervision. At its core, we introduce \textbf{DisenQ} (\textbf{Disen}tangling \textbf{Q}-Former), a unified querying transformer that disentangles biometrics, motion, and non-biometrics features by leveraging structured language guidance. This ensures identity cues remain independent of appearance and motion variations, preventing misidentifications. We evaluate our approach on three activity-based video benchmarks, achieving state-of-the-art performance. Additionally, we demonstrate strong generalization to complex real-world scenario with competitive performance on a traditional video-based identification benchmark, showing the effectiveness of our framework.
- Abstract(参考訳): 本研究では,多様な活動の集合をまたいだ個人を特定する活動バイオメトリックスについて述べる。
従来の人物識別とは異なり、この設定では、アイデンティティーの手がかりが動きのダイナミクスや外見のバリエーションと絡み合うようになり、バイオメトリックスの特徴学習がより複雑になるため、さらなる課題がもたらされる。
ポーズやシルエットなどの付加的な視覚データが役立つ一方で、しばしば不正確さの抽出に苦労する。
そこで本稿では,付加的な視覚データへの依存を代替し,構造化されたテキスト管理を行うマルチモーダル言語誘導フレームワークを提案する。
その中核となるのは、構造化言語指導を利用して生体情報、動き、非生体情報の特徴を歪める統合クエリ変換器である \textbf{Disen}tangling \textbf{Q}-Former (\textbf{Disen}tangling \textbf{Q}-Former) である。
これにより、アイデンティティーの手がかりは外観や動きのバリエーションとは無関係であり、誤認を防ぐことができる。
我々は,3つのアクティビティベースビデオベンチマークに対するアプローチを評価し,最先端のパフォーマンスを達成した。
さらに,従来のビデオベース識別ベンチマークにおいて,複雑な実世界のシナリオに対する強力な一般化と競争性能を示し,フレームワークの有効性を示した。
関連論文リスト
- ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers [7.505873965164197]
ViTaPEsは,視覚的知覚のためのタスク非依存表現を学習するためのフレームワークである。
提案手法は,モーダル内構造を捉えるために,新しいマルチスケール位置符号化方式を利用する。
その結果,ViTaPEは様々な認識タスクにおいて最先端のベースラインを超越していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T14:19:29Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [14.01260112340177]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、監視カメラを通して個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を軽減するか、アイデンティティ(ID)関連の特徴を強化する。
本稿では,衣服による相違を低減し,IDの質を高めるために,新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [7.474418338825595]
MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。
フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。
また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-11-27T12:15:52Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Cross-Database Liveness Detection: Insights from Comparative Biometric
Analysis [20.821562115822182]
生検は生検と生検を区別する能力である。
本研究は, 生活度検出モデルの総合的な評価を行う。
私たちの研究は、バイオメトリックセキュリティの進化するリズムをナビゲートするための青写真を提供しています。
論文 参考訳(メタデータ) (2024-01-29T15:32:18Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Identity-Aware Semi-Supervised Learning for Comic Character
Re-Identification [2.4624325014867763]
本稿では,メタラーニングと新しい「アイデンティティ・アウェア」自己監督手法を組み合わせた頑健なフレームワークを提案する。
我々のアプローチは、統合されたネットワークアーキテクチャにおいて、顔と身体の両方の機能を処理することである。
シリーズ内評価とシリーズ間評価の指標を用いて,本手法を広範囲に検証することにより,漫画のキャラクターを一貫した同定において,その有効性を示す。
論文 参考訳(メタデータ) (2023-08-17T16:48:41Z) - Multi-Channel Time-Series Person and Soft-Biometric Identification [65.83256210066787]
本研究は, 深層建築を用いて異なる活動を行う人間の記録から, 個人とソフトバイオメトリックスを同定する。
マルチチャネル時系列ヒューマンアクティビティ認識(HAR)の4つのデータセットに対する手法の評価を行った。
ソフトバイオメトリクスに基づく属性表現は、有望な結果を示し、より大きなデータセットの必要性を強調している。
論文 参考訳(メタデータ) (2023-04-04T07:24:51Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Deep Collaborative Multi-Modal Learning for Unsupervised Kinship
Estimation [53.62256887837659]
キンシップ検証は、コンピュータビジョンにおける長年の研究課題である。
本稿では,顔特性に表される基礎情報を統合するために,新しい協調型多モーダル学習(DCML)を提案する。
我々のDCML法は、常に最先端のキンシップ検証法よりも優れている。
論文 参考訳(メタデータ) (2021-09-07T01:34:51Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。