論文の概要: ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection
- arxiv url: http://arxiv.org/abs/2412.08594v1
- Date: Wed, 11 Dec 2024 18:12:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:06.329227
- Title: ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection
- Title(参考訳): ASDnB:ロバストなアクティブスピーカー検出のためのボディキューと顔の融合
- Authors: Tiago Roxo, Joana C. Costa, Pedro Inácio, Hugo Proença,
- Abstract要約: 本研究では,顔情報と身体情報とを特異に統合するモデルであるASDnBを提案する。
提案手法では,3次元畳み込みを2次元と1次元に分割し,性能を損なうことなく計算コストを削減する。
- 参考スコア(独自算出の注目度): 13.154512864498912
- License:
- Abstract: State-of-the-art Active Speaker Detection (ASD) approaches mainly use audio and facial features as input. However, the main hypothesis in this paper is that body dynamics is also highly correlated to "speaking" (and "listening") actions and should be particularly useful in wild conditions (e.g., surveillance settings), where face cannot be reliably accessed. We propose ASDnB, a model that singularly integrates face with body information by merging the inputs at different steps of feature extraction. Our approach splits 3D convolution into 2D and 1D to reduce computation cost without loss of performance, and is trained with adaptive weight feature importance for improved complement of face with body data. Our experiments show that ASDnB achieves state-of-the-art results in the benchmark dataset (AVA-ActiveSpeaker), in the challenging data of WASD, and in cross-domain settings using Columbia. This way, ASDnB can perform in multiple settings, which is positively regarded as a strong baseline for robust ASD models (code available at https://github.com/Tiago-Roxo/ASDnB).
- Abstract(参考訳): State-of-the-art Active Speaker Detection (ASD)アプローチは主に音声と顔の特徴を入力として使用する。
しかし,本論文の主な仮説は,身体動態が「話す」行動(および「聞く」行動)と高い相関性を持ち,顔に確実にアクセスできない野生環境(例えば,監視設定)において特に有用である,というものである。
特徴抽出の異なるステップで入力をマージすることで、顔と身体情報とを特異に統合するモデルであるASDnBを提案する。
提案手法では, 3次元畳み込みを2次元と1次元に分割し, 性能を損なうことなく計算コストを低減し, 顔と体データとの相補性を改善するための適応重み特徴を訓練する。
ASDnBは、ベンチマークデータセット(AVA-ActiveSpeaker)、WASDの挑戦的なデータ、コロンビアを用いたクロスドメイン設定において、最先端の結果が得られることを示す。
このように、ASDnBは複数の設定で実行可能であり、堅牢なASDモデルの強力なベースラインと見なされる(https://github.com/Tiago-Roxo/ASDnB)。
関連論文リスト
- BIAS: A Body-based Interpretable Active Speaker Approach [13.154512864498912]
BIASは、音声、顔、身体情報を組み合わせて、様々な/混ざり合った状況で話者を正確に予測するモデルである。
その結果,BIASは身体的特徴が最重要となる困難な状況において最先端であることがわかった。
BIASの解釈可能性はまた、様々な設定でASD予測に関連性のある機能/アスペクトを示す。
論文 参考訳(メタデータ) (2024-12-06T16:08:09Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - TalkNCE: Improving Active Speaker Detection with Talk-Aware Contrastive
Learning [15.673602262069531]
アクティブ話者検出(英: Active Speaker Detection、ASD)とは、ある人が話しているか否かを一連のビデオフレームで判断するタスクである。
提案するTalkNCEは,新しい会話認識型コントラスト損失である。
提案手法は, AVA-ActiveSpeaker および ASW データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - WASD: A Wilder Active Speaker Detection Dataset [0.0]
現在の能動話者検出 (ASD) モデルは, 音声と顔の特徴のみを用いて, AVA-ActiveSpeaker (AVA) において優れた結果が得られる。
本稿では、現在のASDの2つの重要なコンポーネントである音声と顔をターゲットにして、より難易度の高いワイルダーアクティブ話者検出(WASD)データセットを提案する。
我々は最先端のモデルを選択し、WASDの2つのグループでそれらの性能を評価する。
論文 参考訳(メタデータ) (2023-03-09T15:13:22Z) - A Light Weight Model for Active Speaker Detection [7.253335671577093]
入力候補を減らし、2次元と3次元の畳み込みを音声・視覚特徴抽出に分割し、計算量が少ないゲート再帰ユニット(GRU)をクロスモーダルモデリングに応用し、軽量な能動話者検出アーキテクチャを構築した。
AVA-ActiveSpeakerデータセットの実験結果は、我々のフレームワークが競合的なmAP性能(94.1%対94.2%)を達成することを示している。
私たちのフレームワークは、良好な堅牢性を示すColumbiaデータセットでもうまく機能します。
論文 参考訳(メタデータ) (2023-03-08T08:40:56Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - UniCon: Unified Context Network for Robust Active Speaker Detection [111.90529347692723]
我々は、堅牢なアクティブ話者検出(ASD)のための新しい効率的なフレームワークUnified Context Network(UniCon)を導入する。
私たちのソリューションは、複数の種類のコンテキスト情報を共同でモデリングすることに焦点を当てた、新しく統合されたフレームワークです。
異なる設定下で、いくつかの挑戦的なASDベンチマークで徹底的なアブレーション研究が実施されている。
論文 参考訳(メタデータ) (2021-08-05T13:25:44Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。