論文の概要: BIAS: A Body-based Interpretable Active Speaker Approach
- arxiv url: http://arxiv.org/abs/2412.05150v1
- Date: Fri, 06 Dec 2024 16:08:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:01.263608
- Title: BIAS: A Body-based Interpretable Active Speaker Approach
- Title(参考訳): BIAS: 身体に基づく解釈可能な能動話者アプローチ
- Authors: Tiago Roxo, Joana C. Costa, Pedro R. M. Inácio, Hugo Proença,
- Abstract要約: BIASは、音声、顔、身体情報を組み合わせて、様々な/混ざり合った状況で話者を正確に予測するモデルである。
その結果,BIASは身体的特徴が最重要となる困難な状況において最先端であることがわかった。
BIASの解釈可能性はまた、様々な設定でASD予測に関連性のある機能/アスペクトを示す。
- 参考スコア(独自算出の注目度): 13.154512864498912
- License:
- Abstract: State-of-the-art Active Speaker Detection (ASD) approaches heavily rely on audio and facial features to perform, which is not a sustainable approach in wild scenarios. Although these methods achieve good results in the standard AVA-ActiveSpeaker set, a recent wilder ASD dataset (WASD) showed the limitations of such models and raised the need for new approaches. As such, we propose BIAS, a model that, for the first time, combines audio, face, and body information, to accurately predict active speakers in varying/challenging conditions. Additionally, we design BIAS to provide interpretability by proposing a novel use for Squeeze-and-Excitation blocks, namely in attention heatmaps creation and feature importance assessment. For a full interpretability setup, we annotate an ASD-related actions dataset (ASD-Text) to finetune a ViT-GPT2 for text scene description to complement BIAS interpretability. The results show that BIAS is state-of-the-art in challenging conditions where body-based features are of utmost importance (Columbia, open-settings, and WASD), and yields competitive results in AVA-ActiveSpeaker, where face is more influential than body for ASD. BIAS interpretability also shows the features/aspects more relevant towards ASD prediction in varying settings, making it a strong baseline for further developments in interpretable ASD models, and is available at https://github.com/Tiago-Roxo/BIAS.
- Abstract(参考訳): State-of-the-art Active Speaker Detection (ASD)アプローチは、実行すべきオーディオ機能と顔機能に大きく依存している。
これらの手法は標準の AVA-ActiveSpeaker セットで良好な結果が得られるが、最近の WASD データセットではそのようなモデルの限界が示され、新しいアプローチの必要性が高まっている。
そこで本稿では, 音声, 顔, 身体情報を組み合わせたBIASモデルを提案する。
さらに,注目熱マップの作成と特徴重要度評価において,新しいSqueeze-and-Excitationブロックの利用を提案することで,BIASの解釈可能性を実現する。
ASD関連アクションデータセット(ASD-Text)をアノテートしてテキストシーン記述のためのViT-GPT2を微調整し、BIASの解釈可能性を補完する。
AVA-ActiveSpeaker において, BIAS は身体的特徴が最重要であり (Columbia, open-settings, WASD) , 顔がASD よりも強く, 競合する結果が得られた。
BIASの解釈可能性はまた、様々な設定でASD予測に関連のある機能/アスペクトを示し、解釈可能なASDモデルのさらなる開発のための強力なベースラインとなり、https://github.com/Tiago-Roxo/BIASで利用可能である。
関連論文リスト
- ASDnB: Merging Face with Body Cues For Robust Active Speaker Detection [13.154512864498912]
本研究では,顔情報と身体情報とを特異に統合するモデルであるASDnBを提案する。
提案手法では,3次元畳み込みを2次元と1次元に分割し,性能を損なうことなく計算コストを削減する。
論文 参考訳(メタデータ) (2024-12-11T18:12:06Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - WASD: A Wilder Active Speaker Detection Dataset [0.0]
現在の能動話者検出 (ASD) モデルは, 音声と顔の特徴のみを用いて, AVA-ActiveSpeaker (AVA) において優れた結果が得られる。
本稿では、現在のASDの2つの重要なコンポーネントである音声と顔をターゲットにして、より難易度の高いワイルダーアクティブ話者検出(WASD)データセットを提案する。
我々は最先端のモデルを選択し、WASDの2つのグループでそれらの性能を評価する。
論文 参考訳(メタデータ) (2023-03-09T15:13:22Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - Incorporating Dynamic Semantics into Pre-Trained Language Model for
Aspect-based Sentiment Analysis [67.41078214475341]
ABSAの動的アスペクト指向セマンティクスを学ぶために,DR-BERT(Dynamic Re-weighting BERT)を提案する。
具体的には、まずStack-BERT層を主エンコーダとして、文の全体的な意味を理解する。
次に、軽量な動的再重み付けアダプタ(DRA)を導入して微調整する。
論文 参考訳(メタデータ) (2022-03-30T14:48:46Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。