論文の概要: Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization
- arxiv url: http://arxiv.org/abs/2201.01928v1
- Date: Thu, 6 Jan 2022 05:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 19:57:54.705997
- Title: Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization
- Title(参考訳): Egocentric Deep Multi-Channel Audio-Visual Active Speaker Localization
- Authors: Hao Jiang, Calvin Murdock, Vamsi Krishna Ithapu
- Abstract要約: 本稿では,音声活動の検出と局所化結果の堅牢性を実現するための,エンドツーエンドのディープラーニング手法を提案する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
- 参考スコア(独自算出の注目度): 13.144367063836597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Augmented reality devices have the potential to enhance human perception and
enable other assistive functionalities in complex conversational environments.
Effectively capturing the audio-visual context necessary for understanding
these social interactions first requires detecting and localizing the voice
activities of the device wearer and the surrounding people. These tasks are
challenging due to their egocentric nature: the wearer's head motion may cause
motion blur, surrounding people may appear in difficult viewing angles, and
there may be occlusions, visual clutter, audio noise, and bad lighting. Under
these conditions, previous state-of-the-art active speaker detection methods do
not give satisfactory results. Instead, we tackle the problem from a new
setting using both video and multi-channel microphone array audio. We propose a
novel end-to-end deep learning approach that is able to give robust voice
activity detection and localization results. In contrast to previous methods,
our method localizes active speakers from all possible directions on the
sphere, even outside the camera's field of view, while simultaneously detecting
the device wearer's own voice activity. Our experiments show that the proposed
method gives superior results, can run in real time, and is robust against
noise and clutter.
- Abstract(参考訳): 拡張現実デバイスは、人間の知覚を高め、複雑な会話環境における他の補助機能を可能にする可能性がある。
これらの社会的相互作用を理解するのに必要な音声・視覚コンテキストを効果的に把握するには、デバイス着用者と周囲の人々の音声活動を検出し、位置決めする必要がある。
装着者の頭部の動きは動きのぼやけを引き起こす可能性があり、周囲の人々は視界の難しい角度に現れる可能性があり、オクルージョン、視覚的乱雑、オーディオノイズ、照明の悪さがある。
これらの条件下では、以前の最先端のアクティブ話者検出手法では十分な結果が得られない。
代わりに、ビデオとマルチチャネルマイクロホンアレーオーディオの両方を使用して、新しい設定から問題に取り組む。
本稿では,音声活動の検出と局所化を堅牢に行うための,新しいエンドツーエンドディープラーニング手法を提案する。
従来手法とは対照的に、カメラの視野外においても、球面上のあらゆる可能な方向からアクティブな話者をローカライズし、同時に装置装着者の音声活動を検出する。
実験の結果,提案手法はより優れた結果を与え,リアルタイムに動作可能であり,ノイズや乱れに対して頑健であることがわかった。
関連論文リスト
- You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Egocentric Auditory Attention Localization in Conversations [25.736198724595486]
本稿では,エゴセントリックなビデオとマルチチャンネルオーディオを用いて,カメラ装着者の聴覚的注意のヒートマップを予測するエンド・ツー・エンドのディープラーニング手法を提案する。
提案手法では,シーンの特徴と全体的推論を利用して予測を行い,難易度の高い多話者会話データセット上でのベースラインのセットを上回ります。
論文 参考訳(メタデータ) (2023-03-28T14:52:03Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - No-audio speaking status detection in crowded settings via visual
pose-based filtering and wearable acceleration [8.710774926703321]
ビデオとウェアラブルのセンサーは、邪魔にならないプライバシー保護の方法で話すことを認識できる。
ポーズキーポイントに関する局所的特徴の選択は一般化性能に肯定的な影響を及ぼすことを示す。
また,ウェアラブルセンサを用いて測定した加速度を同じタスクに利用し,両手法を組み合わせたマルチモーダルアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-01T15:55:48Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。