論文の概要: RealImpact: A Dataset of Impact Sound Fields for Real Objects
- arxiv url: http://arxiv.org/abs/2306.09944v1
- Date: Fri, 16 Jun 2023 16:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 13:01:51.357965
- Title: RealImpact: A Dataset of Impact Sound Fields for Real Objects
- Title(参考訳): RealImpact: 実物に対する衝撃音場のデータセット
- Authors: Samuel Clarke, Ruohan Gao, Mason Wang, Mark Rau, Julia Xu, Jui-Hsien
Wang, Doug L. James, Jiajun Wu
- Abstract要約: 制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。
RealImpactには、50の毎日の物体の衝撃音の15万の録音と詳細なアノテーションが含まれている。
本研究では,物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを用いた予備試行を行う。
- 参考スコア(独自算出の注目度): 29.066504517249083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objects make unique sounds under different perturbations, environment
conditions, and poses relative to the listener. While prior works have modeled
impact sounds and sound propagation in simulation, we lack a standard dataset
of impact sound fields of real objects for audio-visual learning and
calibration of the sim-to-real gap. We present RealImpact, a large-scale
dataset of real object impact sounds recorded under controlled conditions.
RealImpact contains 150,000 recordings of impact sounds of 50 everyday objects
with detailed annotations, including their impact locations, microphone
locations, contact force profiles, material labels, and RGBD images. We make
preliminary attempts to use our dataset as a reference to current simulation
methods for estimating object impact sounds that match the real world.
Moreover, we demonstrate the usefulness of our dataset as a testbed for
acoustic and audio-visual learning via the evaluation of two benchmark tasks,
including listener location classification and visual acoustic matching.
- Abstract(参考訳): オブジェクトは、異なる摂動や環境条件の下でユニークな音を作り、リスナーに対してポーズを取る。
先行研究はシミュレーションにおける衝撃音と音の伝搬をモデル化してきたが、実物体の衝撃音場に関する標準データセットは欠如している。
制御条件下で記録された実物体衝撃音の大規模データセットであるRealImpactを提案する。
realimpactには、50個の日常オブジェクトの衝突音の15万の録音があり、衝突位置、マイクの位置、コンタクトフォースプロファイル、素材ラベル、rgbd画像など、詳細な注釈がある。
実世界と一致した物体衝撃音を推定するための現在のシミュレーション手法の参考として,我々のデータセットを予備試行する。
さらに,リスナ位置分類と視覚音響マッチングの2つのベンチマークタスクの評価を通して,音声・音声・視覚学習のためのテストベッドとしてのデータセットの有用性を示す。
関連論文リスト
- HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset [0.6568378556428859]
このコントリビューションでは、Image Source Methodを使って作成した7階のAmbisonic Room Impulse Responses (HOA-RIRs) のデータセットが導入されている。
より高階のアンビニクスを用いることで、我々のデータセットは正確な空間的オーディオ再生を可能にする。
提示された64マイクロフォン構成により、球高調波領域で直接RIRをキャプチャできる。
論文 参考訳(メタデータ) (2024-11-21T15:16:48Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Unsupervised Acoustic Scene Mapping Based on Acoustic Features and
Dimensionality Reduction [18.641610823584433]
データの自然な構造を生かした教師なしのデータ駆動型アプローチを導入する。
本手法は,実測値から標準データ座標を学習するためのオフライン深層学習方式であるローカル共形オートエンコーダ(LOCA)に基づいて構築する。
論文 参考訳(メタデータ) (2023-01-01T17:46:09Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Finding Fallen Objects Via Asynchronous Audio-Visual Integration [89.75296559813437]
本稿では,3次元仮想環境におけるマルチモーダルオブジェクトのローカライゼーションについて検討する。
カメラとマイクを装備したロボットエージェントは、音声と視覚信号を基礎となる物理学の知識と組み合わせることで、どの物体が落下したか(そしてどこにあるか)を判断しなければならない。
このデータセットは、物理ベースの衝撃音と、フォトリアリスティックな設定でオブジェクト間の複雑な物理的相互作用をシミュレートする3DWorldプラットフォームを使用している。
論文 参考訳(メタデータ) (2022-07-07T17:59:59Z) - A Study on Robustness to Perturbations for Representations of
Environmental Sound [16.361059909912758]
モノフォニック(UrbanSound8K)およびポリフォニック(SONYC UST)データセット上で,YAMNetとOpenL$3$の2つの埋め込みを評価した。
本研究では,音波信号に摂動を注入することによりチャネル効果を模倣し,新しい埋め込みのシフトを3つの距離で測定する。
論文 参考訳(メタデータ) (2022-03-20T01:04:38Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。