論文の概要: AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments
- arxiv url: http://arxiv.org/abs/2108.01246v1
- Date: Tue, 3 Aug 2021 02:10:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:54:55.977292
- Title: AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments
- Title(参考訳): 音響フュージョン:動的環境における音源定位と視覚SLAM
- Authors: Tianwei Zhang, Huayan Zhang, Xiaofei Li, Junfeng Chen, Tin Lun Lam and
Sethu Vijayakumar
- Abstract要約: 音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。
提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
- 参考スコア(独自算出の注目度): 19.413143126734383
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dynamic objects in the environment, such as people and other agents, lead to
challenges for existing simultaneous localization and mapping (SLAM)
approaches. To deal with dynamic environments, computer vision researchers
usually apply some learning-based object detectors to remove these dynamic
objects. However, these object detectors are computationally too expensive for
mobile robot on-board processing. In practical applications, these objects
output noisy sounds that can be effectively detected by on-board sound source
localization. The directional information of the sound source object can be
efficiently obtained by direction of sound arrival (DoA) estimation, but depth
estimation is difficult. Therefore, in this paper, we propose a novel
audio-visual fusion approach that fuses sound source direction into the RGB-D
image and thus removes the effect of dynamic obstacles on the multi-robot SLAM
system. Experimental results of multi-robot SLAM in different dynamic
environments show that the proposed method uses very small computational
resources to obtain very stable self-localization results.
- Abstract(参考訳): 人や他のエージェントのような環境内の動的オブジェクトは、既存の同時ローカライゼーションとマッピング(SLAM)アプローチの課題を引き起こす。
動的環境に対処するために、コンピュータビジョン研究者は通常、これらの動的物体を除去するために学習に基づく物体検出器を適用する。
しかし、これらの物体検出器は、移動ロボットのオンボード処理には計算コストが高すぎる。
実運用においては,車載音源定位により効果的に検出できる騒音音を発生する。
音源オブジェクトの方向情報は、音の到着方向(DoA)推定によって効率よく得ることができるが、深さ推定は困難である。
そこで,本稿では,音源方向をrgb-d画像に融合し,マルチロボットslamシステムにおける動的障害物の影響を解消する,新しい音声・視覚融合手法を提案する。
異なる動的環境におけるマルチロボットSLAMの実験結果から,提案手法は非常に小さな計算資源を用いて,非常に安定した自己局所化結果が得られることが示された。
関連論文リスト
- V3D-SLAM: Robust RGB-D SLAM in Dynamic Environments with 3D Semantic Geometry Voting [1.3493547928462395]
動体とカメラのポーズの相関関係から,高度にダイナミックな環境下での同時位置決めとマッピング(SLAM)は困難である。
2つの軽量再評価段階を経て移動物体を除去するロバストな手法 V3D-SLAM を提案する。
TUM RGB-Dベンチマーク実験により,直近のSLAM法よりも高い性能を示した。
論文 参考訳(メタデータ) (2024-10-15T21:08:08Z) - ActiveRIR: Active Audio-Visual Exploration for Acoustic Environment Modeling [57.1025908604556]
環境音響モデルは、室内環境の物理的特性によって音がどのように変換されるかを表す。
本研究では,非マップ環境の環境音響モデルを効率的に構築する新しい課題であるアクティブ音響サンプリングを提案する。
我々は,音声・視覚センサストリームからの情報を利用してエージェントナビゲーションを誘導し,最適な音響データサンプリング位置を決定する強化学習ポリシーであるActiveRIRを紹介する。
論文 参考訳(メタデータ) (2024-04-24T21:30:01Z) - DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM [5.267859554944985]
DDN-SLAMは,意味的特徴を統合した最初のリアルタイム高密度ニューラルネットワーク暗黙的SLAMシステムである。
既存の暗黙的SLAMシステムと比較して、動的データセットの追跡結果は平均軌道誤差(ATE)の精度が平均90%向上していることを示している。
論文 参考訳(メタデータ) (2024-01-03T05:42:17Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Language-Conditioned Observation Models for Visual Object Search [12.498575839909334]
我々は、部分的に観測可能なマルコフ決定過程(POMDP)として問題に反応することで、現実的な対象探索のギャップを埋める。
ニューラルネットワークの出力を言語条件観測モデル(LCOM)に組み込んで,動的に変化するセンサノイズを表現する。
本稿では,Boston Dynamics Spotロボットを用いて,複雑な自然言語オブジェクト記述を処理し,室内環境におけるオブジェクトの効率的な発見を可能にする。
論文 参考訳(メタデータ) (2023-09-13T19:30:53Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - D2SLAM: Semantic visual SLAM based on the influence of Depth for Dynamic
environments [0.483420384410068]
一般化とシーン認識に欠ける動的要素を決定するための新しい手法を提案する。
我々は,幾何学的および意味的モジュールからの推定精度を向上するシーン深度情報を用いる。
その結果, 動的環境における正確な位置推定とマッピングを行う上で, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-16T22:13:59Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。