論文の概要: A Study of Multimodal Person Verification Using Audio-Visual-Thermal
Data
- arxiv url: http://arxiv.org/abs/2110.12136v1
- Date: Sat, 23 Oct 2021 04:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 23:33:53.537955
- Title: A Study of Multimodal Person Verification Using Audio-Visual-Thermal
Data
- Title(参考訳): 視聴覚サーマルデータを用いたマルチモーダル人物検証の検討
- Authors: Madina Abdrakhmanova, Saniya Abushakimova, Yerbolat Khassanov, and
Huseyin Atakan Varol
- Abstract要約: 本研究では,音声・視覚・熱的モーダルを用いたマルチモーダル人物の検証手法について検討する。
我々は,最先端のディープラーニングアーキテクチャを用いて,一元的,二元的,三元的検証システムを実装した。
- 参考スコア(独自算出の注目度): 4.149096351426994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study an approach to multimodal person verification using
audio, visual, and thermal modalities. The combination of audio and visual
modalities has already been shown to be effective for robust person
verification. From this perspective, we investigate the impact of further
increasing the number of modalities by supplementing thermal images. In
particular, we implemented unimodal, bimodal, and trimodal verification systems
using the state-of-the-art deep learning architectures and compared their
performance under clean and noisy conditions. We also compared two popular
fusion approaches based on simple score averaging and soft attention mechanism.
The experiment conducted on the SpeakingFaces dataset demonstrates the
superiority of the trimodal verification system over both unimodal and bimodal
systems. To enable the reproducibility of the experiment and facilitate
research into multimodal person verification, we make our code, pretrained
models and preprocessed dataset freely available in our GitHub repository.
- Abstract(参考訳): 本稿では,音声,視覚,サーマルモダリティを用いたマルチモーダル人物認証へのアプローチについて検討する。
音声と視覚のモダリティの組み合わせはすでに、堅牢な人物認証に有効であることが示されている。
この観点から,熱画像の補足によるモダリティ数の増加効果について検討する。
特に,最先端のディープラーニングアーキテクチャを用いて,一様,二様,三様の検証システムを実装し,その性能をクリーンでノイズの多い条件下で比較した。
また,単純なスコア平均化とソフトアテンション機構に基づいて,2つの一般的なフュージョンアプローチを比較した。
SpeechFaces データセットで行った実験は, 単モーダルシステムと双モーダルシステムの両方に対して, トリモーダル検証システムの優位性を示すものである。
実験の再現性を実現し、マルチモーダルな人物認証の研究を容易にするために、コード、トレーニング済みモデル、プリプロセス済みデータセットをgithubリポジトリから自由に利用できるようにしました。
関連論文リスト
- Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models [39.127620891450526]
マルチモーダルデータ生成と濃密な視覚知覚の両方を扱うために,統一的で汎用的な拡散型フレームワークDiff-2-in-1を導入する。
また,従来のトレーニングセットの分布を反映したマルチモーダルデータを作成するために,デノナイジングネットワークを利用することにより,マルチモーダル生成による識別的視覚知覚をさらに強化する。
論文 参考訳(メタデータ) (2024-11-07T18:59:53Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learning Audio-Visual embedding for Wild Person Verification [18.488385598522125]
本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。
顔認証において初めて注意統計のプールを改良した。
最後に、モダリティをゲートアテンション機構で融合する。
論文 参考訳(メタデータ) (2022-09-09T02:29:47Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。