論文の概要: The Boombox: Visual Reconstruction from Acoustic Vibrations
- arxiv url: http://arxiv.org/abs/2105.08052v1
- Date: Mon, 17 May 2021 17:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:21:58.352010
- Title: The Boombox: Visual Reconstruction from Acoustic Vibrations
- Title(参考訳): boombox:音響振動からの視覚再構成
- Authors: Boyuan Chen, Mia Chiquier, Hod Lipson, Carl Vondrick
- Abstract要約: Boomboxは、音響振動を利用して内部内容のイメージを再構築するコンテナです。
低コストで低消費電力のコンタクトマイクを用いて振動を検知するが、マルチモーダルデータから学習することで、安価な音響センサをリッチな視覚センサに変換できることを示す。
- 参考スコア(独自算出の注目度): 29.72878526274187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce The Boombox, a container that uses acoustic vibrations to
reconstruct an image of its inside contents. When an object interacts with the
container, they produce small acoustic vibrations. The exact vibration
characteristics depend on the physical properties of the box and the object. We
demonstrate how to use this incidental signal in order to predict visual
structure. After learning, our approach remains effective even when a camera
cannot view inside the box. Although we use low-cost and low-power contact
microphones to detect the vibrations, our results show that learning from
multi-modal data enables us to transform cheap acoustic sensors into rich
visual sensors. Due to the ubiquity of containers, we believe integrating
perception capabilities into them will enable new applications in
human-computer interaction and robotics. Our project website is at:
boombox.cs.columbia.edu
- Abstract(参考訳): 本稿では,音波振動を利用して内部の映像を再構成する容器「The Boombox」を紹介する。
物体が容器と相互作用すると、小さな音響振動が発生する。
正確な振動特性は、箱と物体の物理的特性に依存する。
視覚構造を予測するために,この偶発的信号の使い方を実証する。
学習後、カメラが箱の中を見ることができない場合でも、我々のアプローチは有効です。
低コストで低消費電力のコンタクトマイクを用いて振動を検知するが、マルチモーダルデータから学習することで、安価な音響センサをリッチな視覚センサに変換できることを示す。
コンテナのユビキタス性のため、認識機能をコンテナに統合することで、人間とコンピュータのインタラクションとロボット工学における新たな応用が可能になると考えています。
プロジェクトのwebサイトはboombox.cs.columbia.eduです。
関連論文リスト
- Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables [14.69686698644447]
実環境からの特定の音に焦点を絞ったり、無視したりできる、可聴性デバイスのための新しい機能であるセマンティック・ヒアリングを導入する。
干渉音や背景雑音の存在下で対象音を抽出できる最初のニューラルネットワークを提案する。
我々は,実世界の利用を一般化する訓練手法を設計する。
論文 参考訳(メタデータ) (2023-11-01T06:07:28Z) - Egocentric Audio-Visual Object Localization [51.434212424829525]
本研究では,エゴモーションを明示的に処理する時空間アグリゲーションモジュールを提案する。
エゴモーションの効果は、時間的幾何変換を推定し、それを利用して視覚的表現を更新することによって緩和される。
視覚的に指示された音声表現をアンタングルすることで、モーダルな局所化の堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-03-23T17:43:11Z) - Side Eye: Characterizing the Limits of POV Acoustic Eavesdropping from
Smartphone Cameras with Rolling Shutters and Movable Lenses [6.227131280108784]
スマートフォンカメラで広く見られるローリングシャッターと可動レンズ構造は、カメラ画像に構造が作用する音を変調する。
本研究は,スマートフォンカメラのPOVを乱す構造音による音響情報漏洩の限界を特徴づけるものである。
論文 参考訳(メタデータ) (2023-01-24T15:00:47Z) - One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall [3.652509571098291]
興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
論文 参考訳(メタデータ) (2022-10-27T19:54:05Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Extended Tactile Perception: Vibration Sensing through Tools and Grasped
Objects [11.60680126397386]
ロボットがツールを具現化し、標準的把握オブジェクトを使って知覚を拡張できることを示します。
ロボット指の動的触覚センサを用いた視覚触覚センシングと機械学習モデルにより,ロボットが接触情報を解読できることを提案する。
本稿では,BioTacマイクロ振動センサと4kHzでのマルチタキセルセンシングが可能な新しいイベントダイナミックセンサであるNUSkinを用いた広範囲な実験について報告する。
論文 参考訳(メタデータ) (2021-06-01T13:49:31Z) - Audio-Visual Floorplan Reconstruction [87.80748348615643]
環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか?
AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。
私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。
論文 参考訳(メタデータ) (2020-12-31T07:00:34Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Swoosh! Rattle! Thump! -- Actions that Sound [38.59779002672538]
この研究は、音とロボットの動きの相互作用に関する最初の大規模な研究である。
ロボットプラットフォームであるTilt-Botを使って、60のオブジェクト上で15,000のインタラクションが可能な、利用可能な最大のサウンドアクションビジョンデータセットを作成します。
例えば、音は金属のドライバーと金属のレンチを区別することができる。
論文 参考訳(メタデータ) (2020-07-03T17:57:54Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。