論文の概要: REWIND Dataset: Privacy-preserving Speaking Status Segmentation from
Multimodal Body Movement Signals in the Wild
- arxiv url: http://arxiv.org/abs/2403.01229v1
- Date: Sat, 2 Mar 2024 15:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-05 14:39:32.996284
- Title: REWIND Dataset: Privacy-preserving Speaking Status Segmentation from
Multimodal Body Movement Signals in the Wild
- Title(参考訳): rewind dataset: 野生のマルチモーダル・ボディ・ムーブメント信号からのプライバシー保護型発話状態セグメンテーション
- Authors: Jose Vargas Quiros, Chirag Raman, Stephanie Tan, Ekin Gedik, Laura
Cabrera-Quiros, Hayley Hung
- Abstract要約: プロフェッショナルなネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えた,初めて公開されているマルチモーダルデータセットを提示する。
いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
- 参考スコア(独自算出の注目度): 14.5263556841263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing speaking in humans is a central task towards understanding social
interactions. Ideally, speaking would be detected from individual voice
recordings, as done previously for meeting scenarios. However, individual voice
recordings are hard to obtain in the wild, especially in crowded mingling
scenarios due to cost, logistics, and privacy concerns. As an alternative,
machine learning models trained on video and wearable sensor data make it
possible to recognize speech by detecting its related gestures in an
unobtrusive, privacy-preserving way. These models themselves should ideally be
trained using labels obtained from the speech signal. However, existing
mingling datasets do not contain high quality audio recordings. Instead,
speaking status annotations have often been inferred by human annotators from
video, without validation of this approach against audio-based ground truth. In
this paper we revisit no-audio speaking status estimation by presenting the
first publicly available multimodal dataset with high-quality individual speech
recordings of 33 subjects in a professional networking event. We present three
baselines for no-audio speaking status segmentation: a) from video, b) from
body acceleration (chest-worn accelerometer), c) from body pose tracks. In all
cases we predict a 20Hz binary speaking status signal extracted from the audio,
a time resolution not available in previous datasets. In addition to providing
the signals and ground truth necessary to evaluate a wide range of speaking
status detection methods, the availability of audio in REWIND makes it suitable
for cross-modality studies not feasible with previous mingling datasets.
Finally, our flexible data consent setup creates new challenges for multimodal
systems under missing modalities.
- Abstract(参考訳): 人間で話すことを認識することは、社会的相互作用を理解するための中心的な課題である。
理想的には、ミーティングシナリオで以前行われたように、個々の音声録音から話すことが検出される。
しかし、個々の音声録音は、特にコスト、ロジスティクス、プライバシーの懸念による混成シナリオにおいて、野生では入手が困難である。
代替として、ビデオとウェアラブルセンサーのデータに基づいてトレーニングされた機械学習モデルは、その関連するジェスチャーを邪魔にならないプライバシー保護方法で検出することで、音声認識を可能にする。
これらのモデル自体は、音声信号から得られるラベルを使って理想的に訓練されるべきである。
しかし、既存のマイリングデータセットは高品質なオーディオ録音を含まない。
代わりに、現状のアノテーションは、音声ベースの真実に対するこのアプローチの検証なしに、ビデオから人間のアノテーションによってしばしば推測される。
本稿では,プロのネットワークイベントにおいて,33人の被験者による高品質な個人音声記録を備えたマルチモーダルデータセットを初めて公開することにより,音声による発話状況推定を再検討する。
音声のない発話状態セグメンテーションのための3つのベースラインを提示する。
a)ビデオから,
b)体加速度(胸筋加速度計)から
c) 身体的ポーズの軌跡から。
いずれの場合も、従来のデータセットでは利用できない時間分解能である音声から抽出した20Hzのバイナリ音声のステータス信号を予測する。
幅広い発話状態検出手法を評価するのに必要な信号と地上の真実を提供することに加えて、REWINDにおける音声の可用性は、以前のミキシングデータセットでは実現不可能なクロスモーダルな研究に適している。
最後に、当社のフレキシブルなデータ同意設定は、モダリティの欠如によるマルチモーダルシステムに新たな課題をもたらす。
関連論文リスト
- Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Crowdotic: A Privacy-Preserving Hospital Waiting Room Crowd Density
Estimation with Non-speech Audio [4.149485024539117]
クラウド分析のための非音声音声に基づくアプローチを提案する。
非音声のみを用いて、顕著な精度でそのような分析を行うことができる。
論文 参考訳(メタデータ) (2023-09-19T03:08:20Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Spot the conversation: speaker diarisation in the wild [108.61222789195209]
そこで本研究では,YouTubeビデオの映像自動ダイアリゼーション手法を提案する。
次に,本手法を半自動データセット生成パイプラインに統合する。
第3に、このパイプラインを使用して、VoxConverseと呼ばれる大規模なダイアリゼーションデータセットを作成します。
論文 参考訳(メタデータ) (2020-07-02T15:55:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。