論文の概要: SoundCam: A Dataset for Finding Humans Using Room Acoustics
- arxiv url: http://arxiv.org/abs/2311.03517v2
- Date: Mon, 15 Jan 2024 08:15:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 01:01:19.506506
- Title: SoundCam: A Dataset for Finding Humans Using Room Acoustics
- Title(参考訳): SoundCam: 室内音響を使って人間を見つけるためのデータセット
- Authors: Mason Wang, Samuel Clarke, Jui-Hsien Wang, Ruohan Gao, Jiajun Wu
- Abstract要約: SoundCamは、Wildの部屋から公開されたユニークなRIRのデータセットとして、これまでで最大のものです。
これには、室内のインパルス応答の10チャンネルの実世界計測と、3つの部屋における2000の10チャンネルの音楽記録が含まれる。
これらの測定は、人間の検出や識別、位置の追跡など、興味深いタスクに利用できることを示す。
- 参考スコア(独自算出の注目度): 22.279282163908462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A room's acoustic properties are a product of the room's geometry, the
objects within the room, and their specific positions. A room's acoustic
properties can be characterized by its impulse response (RIR) between a source
and listener location, or roughly inferred from recordings of natural signals
present in the room. Variations in the positions of objects in a room can
effect measurable changes in the room's acoustic properties, as characterized
by the RIR. Existing datasets of RIRs either do not systematically vary
positions of objects in an environment, or they consist of only simulated RIRs.
We present SoundCam, the largest dataset of unique RIRs from in-the-wild rooms
publicly released to date. It includes 5,000 10-channel real-world measurements
of room impulse responses and 2,000 10-channel recordings of music in three
different rooms, including a controlled acoustic lab, an in-the-wild living
room, and a conference room, with different humans in positions throughout each
room. We show that these measurements can be used for interesting tasks, such
as detecting and identifying humans, and tracking their positions.
- Abstract(参考訳): 部屋の音響特性は、部屋の形状、部屋内の物体、そして部屋の特定の位置の産物である。
部屋の音響特性は、音源とリスナー位置の間のインパルス応答(RIR)によって特徴づけられるか、部屋に存在する自然信号の記録から大まかに推測される。
室内の物体の位置の変化は、RIRによって特徴づけられるように、部屋の音響特性の計測可能な変化を引き起こす。
既存のRIRのデータセットは、環境内のオブジェクトの位置を体系的に変更しないか、あるいはシミュレーションされたRIRのみで構成されている。
SoundCamは、Wildの部屋から公開されたユニークなRIRのデータセットとして最大です。
これには、室内のインパルス応答の10チャンネルの実世界計測と、コントロールされた音響実験室、部屋内リビングルーム、会議室を含む3つの部屋における2000の10チャンネルの音楽記録が含まれる。
これらの測定は、人間の検出や識別、位置の追跡など、興味深いタスクに利用できることを示す。
関連論文リスト
- BAT: Learning to Reason about Spatial Sounds with Large Language Models [48.48501269805149]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and
Audio [50.39279046238891]
人体全体に対して正確な3次元空間音声を生成できるモデルを提案する。
システムは入力として、ヘッドセットのマイクからの音声信号とボディポーズを消費する。
本モデルでは, 適切な損失を伴ってトレーニングした場合に, 精度の高い音場を生成できることが示される。
論文 参考訳(メタデータ) (2023-11-01T16:40:35Z) - Measuring Acoustics with Collaborative Multiple Agents [25.879534979760034]
2つのロボットは、広い探索と正確な予測に報われながら、環境の音響を探索するように訓練されている。
予測誤差を最小化しながら,ロボットが協調して環境音響を探索し,移動することを実証する。
論文 参考訳(メタデータ) (2023-10-09T02:58:27Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - RealImpact: A Dataset of Impact Sound Fields for Real Objects [29.066504517249083]
制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。
RealImpactには、50の毎日の物体の衝撃音の15万の録音と詳細なアノテーションが含まれている。
本研究では,物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを用いた予備試行を行う。
論文 参考訳(メタデータ) (2023-06-16T16:25:41Z) - Listen2Scene: Interactive material-aware binaural sound propagation for
reconstructed 3D scenes [69.03289331433874]
仮想現実(VR)および拡張現実(AR)アプリケーションのためのエンドツーエンドオーディオレンダリング手法(Listen2Scene)を提案する。
実環境の3次元モデルに対する音響効果を生成するために,ニューラルネットを用いた新しい音響伝搬法を提案する。
論文 参考訳(メタデータ) (2023-02-02T04:09:23Z) - Enhancing Audio Perception of Music By AI Picked Room Acoustics [4.314956204483073]
私たちは、AIを使って特定の作品を実行するのに最適な部屋を見つけようとしています。
室内音響は,音の知覚的特性を高める手段として用いられる。
論文 参考訳(メタデータ) (2022-08-16T23:47:43Z) - SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning [127.1119359047849]
SoundSpaces 2.0は3D環境のためのオンザフライ幾何ベースのオーディオレンダリングのためのプラットフォームである。
任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成する。
SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムのより広範な研究を促進するために公開されている。
論文 参考訳(メタデータ) (2022-06-16T17:17:44Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Deep Sound Field Reconstruction in Real Rooms: Introducing the ISOBEL
Sound Field Dataset [0.0]
本稿では,4つの実室から測定したデータセットを導入し,低周波音場復元の評価を拡張した。
本稿では,低音域マイクロホンを用いた近年の深層学習に基づく音場再構成法について述べる。
論文 参考訳(メタデータ) (2021-02-12T11:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。