論文の概要: Audio-Visual Floorplan Reconstruction
- arxiv url: http://arxiv.org/abs/2012.15470v1
- Date: Thu, 31 Dec 2020 07:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:08:11.695454
- Title: Audio-Visual Floorplan Reconstruction
- Title(参考訳): 視聴覚床計画再構成
- Authors: Senthil Purushwalkam, Sebastian Vicenc Amengual Gari, Vamsi Krishna
Ithapu, Carl Schissler, Philip Robinson, Abhinav Gupta, Kristen Grauman
- Abstract要約: 環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか?
AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。
私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。
- 参考スコア(独自算出の注目度): 87.80748348615643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given only a few glimpses of an environment, how much can we infer about its
entire floorplan? Existing methods can map only what is visible or immediately
apparent from context, and thus require substantial movements through a space
to fully map it. We explore how both audio and visual sensing together can
provide rapid floorplan reconstruction from limited viewpoints. Audio not only
helps sense geometry outside the camera's field of view, but it also reveals
the existence of distant freespace (e.g., a dog barking in another room) and
suggests the presence of rooms not visible to the camera (e.g., a dishwasher
humming in what must be the kitchen to the left). We introduce AV-Map, a novel
multi-modal encoder-decoder framework that reasons jointly about audio and
vision to reconstruct a floorplan from a short input video sequence. We train
our model to predict both the interior structure of the environment and the
associated rooms' semantic labels. Our results on 85 large real-world
environments show the impact: with just a few glimpses spanning 26% of an area,
we can estimate the whole area with 66% accuracy -- substantially better than
the state of the art approach for extrapolating visual maps.
- Abstract(参考訳): 環境を少しだけ垣間見るだけで、そのフロアプラン全体についてどれだけ推測できるだろうか?
既存の方法では、コンテキストから見えるものやすぐに見えるものだけをマッピングできるため、完全にマッピングするには空間を通してかなりの動きが必要となる。
音声と視覚の両方を組み合わせることで、限られた視点から素早くフロアプランを再構築する方法について検討する。
オーディオはカメラの視野の外側の幾何を感知するだけでなく、遠方のフリースペース(例えば、別の部屋でbarえている犬)の存在も明らかにし、カメラに見えない部屋の存在を示唆する(例えば、台所の左側にあるはずのものをハミングする食器洗い機)。
AV-Mapはマルチモーダルエンコーダ・デコーダ・フレームワークで,音声と視覚を併用して短い入力ビデオシーケンスからフロアプランを再構築する。
我々は、環境の内部構造と関連する部屋のセマンティックラベルの両方を予測するためにモデルを訓練する。
私たちの85の大規模な実世界の環境における結果は、その影響を示しています。ある領域の26%にまたがるほんの少しの垣根を見れば、その領域全体を66%の精度で見積もることができるのです。
関連論文リスト
- VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene
Completion [129.5975573092919]
VoxFormerはTransformerベースのセマンティックシーン補完フレームワークである。
2D画像のみから完全な3Dセマンティクスを出力できる。
我々のフレームワークは、幾何学の20.0%と意味論の18.1%を相対的に改善し、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2023-02-23T18:59:36Z) - Chat2Map: Efficient Scene Mapping from Multi-Ego Conversations [65.37621891132729]
本研究では,自然会話における参加者のエゴセントリックな音声・視覚的観察において,共有情報を活用することで,これまで見つからなかった3D環境の地図を構築する。
共有シーンマッパーと協調して、カメラを選択的にオンにして空間を効率よくチャートアウトする、オーディオ-視覚深層強化学習手法を提案する。
我々のモデルは従来の最先端マッピング手法よりも優れており、優れたコスト-精度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-01-04T18:47:32Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$
Videos [42.32743253830288]
そこで我々は,パノラマビデオを用いた大規模音声・視覚質問応答データセットとして,パノラマ画像を用いたPano-AVQAというベンチマークを提案する。
オンラインで収集した5.4K 360$circ$のビデオクリップを使用して、バウンディングボックスのグラウンド付き2種類の新しい質問応答ペアを収集する。
提案した球面空間埋め込みとマルチモーダルトレーニングの目的が,データセット上のパノラマ環境のセマンティック理解に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-11T09:58:05Z) - Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。
既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。
本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-21T18:00:33Z) - Attend and Segment: Attention Guided Active Semantic Segmentation [44.29313588655997]
本研究では,部分的な観察の順序を考慮に入れたシーンを段階的に分割する手法を提案する。
本手法は,空間記憶マップの保守と活用を目的とした,自己監視型アテンション機構と特化アーキテクチャを含む。
私たちはCityScapes、CamVid、Kittiのデータセットで78.1%、80.9%、76.5%の平均画素精度に達しています。
論文 参考訳(メタデータ) (2020-07-22T17:09:13Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z) - A proto-object based audiovisual saliency map [0.0]
本研究では,動的自然シーンの分析を行うために,プロトオブジェクトベースオーディオビジュアル・サリエンシ・マップ(AVSM)を開発した。
このような環境は、監視、ロボットナビゲーション、ビデオ圧縮および関連するアプリケーションに有用である。
論文 参考訳(メタデータ) (2020-03-15T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。