論文の概要: Scattering Features for Multimodal Gait Recognition
- arxiv url: http://arxiv.org/abs/2001.08830v1
- Date: Thu, 23 Jan 2020 22:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:29:27.418395
- Title: Scattering Features for Multimodal Gait Recognition
- Title(参考訳): マルチモーダル歩行認識のための散乱特性
- Authors: Sr{\dj}an Kiti\'c, Gilles Puy, Patrick P\'erez, Philippe Gilberton
- Abstract要約: 歩行パターンに基づく人物識別の問題点を考察する。
マイクロホンとジオフォンセンサから得られた音響および振動の測定に頼っている。
- 参考スコア(独自算出の注目度): 5.3526997662068085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of identifying people on the basis of their walk
(gait) pattern. Classical approaches to tackle this problem are based on, e.g.,
video recordings or piezoelectric sensors embedded in the floor. In this work,
we rely on acoustic and vibration measurements, obtained from a microphone and
a geophone sensor, respectively. The contribution of this work is twofold.
First, we propose a feature extraction method based on an (untrained) shallow
scattering network, specially tailored for the gait signals. Second, we
demonstrate that fusing the two modalities improves identification in the
practically relevant open set scenario.
- Abstract(参考訳): 歩行パターン(歩行パターン)に基づいて人物を識別する問題を考える。
この問題を解決する古典的なアプローチは、例えば、床に埋め込まれたビデオ記録や圧電センサに基づいている。
本研究では,マイクロホンとジオフォンセンサから得られた音響および振動の測定に頼っている。
この作品の貢献は2つある。
まず,歩行信号用に特別に調整された(訓練されていない)浅層散乱ネットワークに基づく特徴抽出法を提案する。
第2に,この2つのモダリティを融合することで,実際のオープンセットシナリオにおける識別性が向上することを示す。
関連論文リスト
- Coherent interaction-free detection of noise [0.0]
ノイズは重要な概念であり、その測定と特性は現代のメソスコピック物理学において盛んに研究されてきた。
本稿では,ノイズ検出手法としてインタラクションフリーな計測法を提案する。
論文 参考訳(メタデータ) (2023-12-28T18:24:13Z) - STMixer: A One-Stage Sparse Action Detector [48.0614066856134]
我々はSTMixerと呼ばれる新しいワンステージアクション検出器を提案する。
我々は,STMixerに識別ビデオ機能セットをマイニングする柔軟性を付与する,クエリベースの適応型特徴サンプリングモジュールを提案する。
AVA, UCF101-24, JHMDB のデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2023-03-28T10:47:06Z) - Opening the Black Box of wav2vec Feature Encoder [2.1219431687928525]
我々は、その潜在空間が離散音響単位を表すと推測される畳み込み特徴エンコーダに焦点を当てる。
埋め込み空間を還元的に解析するため,単純な正弦波の和である合成音声信号を供給した。
本稿では,(1)基本周波数,(2)ホルマント,(3)振幅といった特徴エンコーダ表現の中に,(4)時間的詳細を詰め込んだ様々な情報が埋め込まれていることを結論する。
論文 参考訳(メタデータ) (2022-10-27T12:47:35Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Source Separation of Unknown Numbers of Single-Channel Underwater
Acoustic Signals Based on Autoencoders [0.0]
ソース分離問題に対処するために,一定数の出力チャネルを持つ解を提案する。
具体的には、オートエンコーダに基づく2段階のアルゴリズムと、ミュートチャネルのある状況に対する新しい性能評価手法を提案する。
放射音の混合を模擬した実験により, 提案手法は, 既知信号数と同等の分離性能が得られることを示した。
論文 参考訳(メタデータ) (2022-07-24T14:04:34Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - Metric-based multimodal meta-learning for human movement identification
via footstep recognition [3.300376360949452]
マルチモーダル・フレームワークを導入した新しいメトリック・ベース・ラーニング・アプローチについて述べる。
我々は,全方位センサシステムから得られた低感度データから汎用表現を学習する。
本研究は,マルチセンサデータに対するメトリクスに基づくコントラスト学習手法を用いて,データ不足の影響を緩和する。
論文 参考訳(メタデータ) (2021-11-15T18:46:14Z) - WaveFake: A Data Set to Facilitate Audio Deepfake Detection [3.8073142980733]
本稿では,音声信号の解析に用いる信号処理技術について紹介する。
次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。
第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
論文 参考訳(メタデータ) (2021-11-04T12:26:34Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating
Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。
提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文 参考訳(メタデータ) (2020-07-23T18:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。