論文の概要: EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments
- arxiv url: http://arxiv.org/abs/2107.04174v1
- Date: Fri, 9 Jul 2021 02:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:51:58.755273
- Title: EasyCom: An Augmented Reality Dataset to Support Algorithms for Easy
Communication in Noisy Environments
- Title(参考訳): EasyCom:ノイズの多い環境で簡単にコミュニケーションできるアルゴリズムをサポートする拡張現実データセット
- Authors: Jacob Donley, Vladimir Tourbabin, Jung-Suk Lee, Mark Broyles, Hao
Jiang, Jie Shen, Maja Pantic, Vamsi Krishna Ithapu, Ravish Mehra
- Abstract要約: 我々は、ARメガネ着用者の会話を改善するアルゴリズムのトレーニングとテストに有用な5時間以上のマルチモーダルデータを含むデータセットをリリースする。
ベースライン法に対して,音声の可聴性,品質,信号対雑音比の改善結果を提供し,全試験指標に比較して改善を示す。
- 参考スコア(独自算出の注目度): 43.05826988957987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Augmented Reality (AR) as a platform has the potential to facilitate the
reduction of the cocktail party effect. Future AR headsets could potentially
leverage information from an array of sensors spanning many different
modalities. Training and testing signal processing and machine learning
algorithms on tasks such as beam-forming and speech enhancement require high
quality representative data. To the best of the author's knowledge, as of
publication there are no available datasets that contain synchronized
egocentric multi-channel audio and video with dynamic movement and
conversations in a noisy environment. In this work, we describe, evaluate and
release a dataset that contains over 5 hours of multi-modal data useful for
training and testing algorithms for the application of improving conversations
for an AR glasses wearer. We provide speech intelligibility, quality and
signal-to-noise ratio improvement results for a baseline method and show
improvements across all tested metrics. The dataset we are releasing contains
AR glasses egocentric multi-channel microphone array audio, wide field-of-view
RGB video, speech source pose, headset microphone audio, annotated voice
activity, speech transcriptions, head bounding boxes, target of speech and
source identification labels. We have created and are releasing this dataset to
facilitate research in multi-modal AR solutions to the cocktail party problem.
- Abstract(参考訳): プラットフォームとしての拡張現実(AR)は、カクテルパーティー効果の低減を促進する可能性がある。
将来のarヘッドセットは、さまざまな種類のセンサーからの情報を活用する可能性がある。
ビームフォーミングや音声強調などのタスクにおける信号処理と機械学習アルゴリズムの訓練と試験には、高品質な代表データが必要である。
著者の知る限り、出版時点では、ノイズの多い環境での動的動きと会話を伴う、エゴセントリックなマルチチャンネルオーディオとビデオの同期を含む利用可能なデータセットは存在しない。
本研究では,ARメガネ装着者の会話改善のためのアルゴリズムのトレーニングやテストに有用な5時間以上のマルチモーダルデータを含むデータセットを記述,評価,リリースする。
ベースライン法に対して,音声の可聴性,品質,信号対雑音比の改善結果を提供し,全試験指標で改善を示す。
私たちがリリースするデータセットには、ARグラスのエゴセントリックなマルチチャネルマイクロフォンアレイオーディオ、広視野RGBビデオ、音声ソースポーズ、ヘッドセットマイクロフォンオーディオ、注釈付き音声アクティビティ、音声書き起こし、ヘッドバウンディングボックス、スピーチのターゲット、ソース識別ラベルが含まれています。
我々は、カクテルパーティー問題に対するマルチモーダルARソリューションの研究を促進するために、このデータセットを作成し、リリースしています。
関連論文リスト
- Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding [61.89781979702939]
本研究では,事前学習データセットにおけるデータ量,多様性,品質の「不可能トリニティ」を定量的に明らかにする。
近年の取り組みは、合成アノテーションによって低品質で妥協された大規模で多様なASRデータセットを改良することを目指している。
我々は,ビデオアノテーションを改良されたノイズコントロール手法で反復的に洗練するVideo DataFlywheelフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-09-29T03:33:35Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - Headset: Human emotion awareness under partial occlusions multimodal
dataset [19.57427512904342]
本稿では,没入型技術の発展を支援するため,新しいマルチモーダルデータベースを提案する。
提案するデータベースは倫理的に適合する多種多様なボリュームデータを提供し、特に27人の参加者が発話中に表情や微妙な身体の動きを呈示し、11人の参加者がヘッドマウントディスプレイ(HMD)を着用している。
このデータセットは、表情認識と再構成、顔の再現、ボリュームビデオなど、さまざまなXRアルゴリズムの評価とパフォーマンステストに役立てることができる。
論文 参考訳(メタデータ) (2024-02-14T11:42:15Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient
Crossmodal Learning [21.270905512076425]
DOLOS(DOLOS)は,ゲームショーの偽装検出データセットとして最大であり,深い偽装会話が可能である。
我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。
マルチタスク学習を利用して、偽装と音声・視覚的特徴を同時予測することで、性能を向上させる。
論文 参考訳(メタデータ) (2023-03-09T08:12:16Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Audio Tagging by Cross Filtering Noisy Labels [26.14064793686316]
そこで我々はCrossFilterという新しいフレームワークを提案し,音声タグ付けにおけるノイズラベル問題に対処する。
提案手法は最先端の性能を達成し,アンサンブルモデルを超えている。
論文 参考訳(メタデータ) (2020-07-16T07:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。