論文の概要: FabuLight-ASD: Unveiling Speech Activity via Body Language
- arxiv url: http://arxiv.org/abs/2411.13674v1
- Date: Wed, 20 Nov 2024 19:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:55.260460
- Title: FabuLight-ASD: Unveiling Speech Activity via Body Language
- Title(参考訳): FabuLight-ASD:ボディランゲージによる音声活動の展開
- Authors: Hugo Carneiro, Stefan Wermter,
- Abstract要約: マルチモーダル環境におけるアクティブ話者検出(ASD)は、ビデオ会議から人間とロボットのインタラクションに至るまで、様々な用途に不可欠である。
本稿では,顔,音声,身体のポーズ情報を統合した高度なASDモデルであるFabuLight-ASDを紹介し,検出精度とロバスト性を向上させる。
Wilder Active Speaker Detection (WASD)データセットを用いて、実世界のシナリオでFabuLight-ASDの有効性を実証する。
- 参考スコア(独自算出の注目度): 16.62093155442695
- License:
- Abstract: Active speaker detection (ASD) in multimodal environments is crucial for various applications, from video conferencing to human-robot interaction. This paper introduces FabuLight-ASD, an advanced ASD model that integrates facial, audio, and body pose information to enhance detection accuracy and robustness. Our model builds upon the existing Light-ASD framework by incorporating human pose data, represented through skeleton graphs, which minimises computational overhead. Using the Wilder Active Speaker Detection (WASD) dataset, renowned for reliable face and body bounding box annotations, we demonstrate FabuLight-ASD's effectiveness in real-world scenarios. Achieving an overall mean average precision (mAP) of 94.3%, FabuLight-ASD outperforms Light-ASD, which has an overall mAP of 93.7% across various challenging scenarios. The incorporation of body pose information shows a particularly advantageous impact, with notable improvements in mAP observed in scenarios with speech impairment, face occlusion, and human voice background noise. Furthermore, efficiency analysis indicates only a modest increase in parameter count (27.3%) and multiply-accumulate operations (up to 2.4%), underscoring the model's efficiency and feasibility. These findings validate the efficacy of FabuLight-ASD in enhancing ASD performance through the integration of body pose data. FabuLight-ASD's code and model weights are available at https://github.com/knowledgetechnologyuhh/FabuLight-ASD.
- Abstract(参考訳): マルチモーダル環境におけるアクティブ話者検出(ASD)は、ビデオ会議から人間とロボットのインタラクションに至るまで、様々な用途に不可欠である。
本稿では,顔,音声,身体のポーズ情報を統合した高度なASDモデルであるFabuLight-ASDを紹介し,検出精度とロバスト性を向上させる。
我々のモデルは、人間のポーズデータをスケルトングラフで表現し、計算オーバーヘッドを最小限に抑えることで、既存のLight-ASDフレームワークの上に構築されている。
Wilder Active Speaker Detection (WASD)データセットを使用して、FabLight-ASDの有効性を実世界のシナリオで実証する。
全体的な平均精度(mAP)は94.3%で、FabLight-ASDは様々な困難なシナリオで全体のmAPが93.7%であるLight-ASDを上回っている。
身体ポーズ情報の導入は特に有利な影響を示し, 音声障害, 顔閉塞, 人間の声背景雑音のシナリオにおいて, mAPの顕著な改善が見られた。
さらに、効率分析は、パラメータ数(27.3%)と乗算累積演算(最大2.4%)の緩やかな増加しか示さず、モデルの効率と実現可能性を強調している。
これらの結果から,FbuLight-ASDの身体ポーズデータの統合によるASD性能向上効果が検証された。
FabuLight-ASDのコードとモデルウェイトはhttps://github.com/knowledgetechnologyuh/FabuLight-ASDで入手できる。
関連論文リスト
- EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - Density Adaptive Attention is All You Need: Robust Parameter-Efficient Fine-Tuning Across Multiple Modalities [0.9217021281095907]
DAAMは学習可能な平均と分散を、マルチヘッドフレームワークで実装されたアテンションメカニズムに統合する。
DAAMは、音声における感情認識、画像分類、テキスト分類など、様々なタスクにおいて優れた適応性と有効性を示す。
本稿では,DAAM法で学習したモデルの説明可能性を高めるための新しい学習基準であるImportance Factorを紹介する。
論文 参考訳(メタデータ) (2024-01-20T06:42:32Z) - Towards Precise Weakly Supervised Object Detection via Interactive
Contrastive Learning of Context Information [10.064363395935478]
弱教師付き物体検出(WSOD)は、画像レベルのタグのみを用いて正確な物体検出を学習することを目的としている。
本稿では、JLWSODと呼ばれる対話型エンドツーエンドWSDOフレームワークを2つの革新と共に提案する。
論文 参考訳(メタデータ) (2023-04-27T11:54:41Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery [32.73513554145019]
Domain Adaptive 3D Pose Augmentation (DAPA)は、Wildのシナリオにおけるモデルの一般化能力を向上するデータ拡張手法である。
DAPAによる微調整が3DPWとAGORAのベンチマークの結果を効果的に改善できることを定量的に示す。
論文 参考訳(メタデータ) (2022-06-21T15:02:31Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。