論文の概要: The Boombox: Visual Reconstruction from Acoustic Vibrations
- arxiv url: http://arxiv.org/abs/2105.08052v1
- Date: Mon, 17 May 2021 17:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:21:58.352010
- Title: The Boombox: Visual Reconstruction from Acoustic Vibrations
- Title(参考訳): boombox:音響振動からの視覚再構成
- Authors: Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick
- Abstract要約: Boomboxは、音響振動を利用して内部内容のイメージを再構築するコンテナです。
低コストで低消費電力のコンタクトマイクを用いて振動を検知するが、マルチモーダルデータから学習することで、安価な音響センサをリッチな視覚センサに変換できることを示す。
- 参考スコア(独自算出の注目度): 29.72878526274187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce The Boombox, a container that uses acoustic vibrations to
reconstruct an image of its inside contents. When an object interacts with the
container, they produce small acoustic vibrations. The exact vibration
characteristics depend on the physical properties of the box and the object. We
demonstrate how to use this incidental signal in order to predict visual
structure. After learning, our approach remains effective even when a camera
cannot view inside the box. Although we use low-cost and low-power contact
microphones to detect the vibrations, our results show that learning from
multi-modal data enables us to transform cheap acoustic sensors into rich
visual sensors. Due to the ubiquity of containers, we believe integrating
perception capabilities into them will enable new applications in
human-computer interaction and robotics. Our project website is at:
boombox.cs.columbia.edu
- Abstract(参考訳): 本稿では,音波振動を利用して内部の映像を再構成する容器「The Boombox」を紹介する。
物体が容器と相互作用すると、小さな音響振動が発生する。
正確な振動特性は、箱と物体の物理的特性に依存する。
視覚構造を予測するために,この偶発的信号の使い方を実証する。
学習後、カメラが箱の中を見ることができない場合でも、我々のアプローチは有効です。
低コストで低消費電力のコンタクトマイクを用いて振動を検知するが、マルチモーダルデータから学習することで、安価な音響センサをリッチな視覚センサに変換できることを示す。
コンテナのユビキタス性のため、認識機能をコンテナに統合することで、人間とコンピュータのインタラクションとロボット工学における新たな応用が可能になると考えています。
プロジェクトのwebサイトはboombox.cs.columbia.eduです。
関連論文リスト
- ANAVI: Audio Noise Awareness using Visuals of Indoor environments for NAVIgation [26.460679530665487]
より静かなロボット経路計画のためのNAVIgationのための室内視覚を用いた騒音認識手法を提案する。
我々は、模擬住宅の異なるリスナー場所で「インパルス」の音の大きさのデータを生成し、音響騒音予測器(ANP)を訓練する。
動作音響とANPを統合し,車輪付きロボット(Hello Robot Stretch)と脚付きロボット(Unitree Go2)を用いて,これらのロボットが環境の騒音制約に適合するように実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:19:53Z) - You Only Speak Once to See [24.889319740761827]
視覚的手がかりを用いた画像中の物体のグラウンド化は、コンピュータビジョンにおいて確立されたアプローチである。
映像シーンのグラウンド化に音声を活用するため,YOSS,You Only Speak Once to Seeを紹介した。
実験結果から,物体のグラウンド化に音声誘導を効果的に適用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T01:16:15Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Side Eye: Characterizing the Limits of POV Acoustic Eavesdropping from
Smartphone Cameras with Rolling Shutters and Movable Lenses [6.227131280108784]
スマートフォンカメラで広く見られるローリングシャッターと可動レンズ構造は、カメラ画像に構造が作用する音を変調する。
本研究は,スマートフォンカメラのPOVを乱す構造音による音響情報漏洩の限界を特徴づけるものである。
論文 参考訳(メタデータ) (2023-01-24T15:00:47Z) - One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall [3.652509571098291]
興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
論文 参考訳(メタデータ) (2022-10-27T19:54:05Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Extended Tactile Perception: Vibration Sensing through Tools and Grasped
Objects [11.60680126397386]
ロボットがツールを具現化し、標準的把握オブジェクトを使って知覚を拡張できることを示します。
ロボット指の動的触覚センサを用いた視覚触覚センシングと機械学習モデルにより,ロボットが接触情報を解読できることを提案する。
本稿では,BioTacマイクロ振動センサと4kHzでのマルチタキセルセンシングが可能な新しいイベントダイナミックセンサであるNUSkinを用いた広範囲な実験について報告する。
論文 参考訳(メタデータ) (2021-06-01T13:49:31Z) - Audio-Visual Floorplan Reconstruction [87.80748348615643]
環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか?
AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。
私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。
論文 参考訳(メタデータ) (2020-12-31T07:00:34Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。