論文の概要: Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments
- arxiv url: http://arxiv.org/abs/2511.19396v1
- Date: Mon, 24 Nov 2025 18:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.365459
- Title: Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments
- Title(参考訳): 動的音響環境における適応ビームフォーミングのためのオンデバイス深層学習によるリアルタイム物体追跡
- Authors: Jorge Ortigoso-Narro, Jose A. Belloch, Adrian Amor-Martin, Sandra Roger, Maximo Cobos,
- Abstract要約: 本研究は,深層学習に基づくトラッキングとビームフォーミングを統合し,正確な音源定位を実現する組込みシステムを提案する。
このシステムは、遠隔会議、スマートホームデバイス、および補助技術に適している。
- 参考スコア(独自算出の注目度): 3.0718743078604067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in object tracking and acoustic beamforming are driving new capabilities in surveillance, human-computer interaction, and robotics. This work presents an embedded system that integrates deep learning-based tracking with beamforming to achieve precise sound source localization and directional audio capture in dynamic environments. The approach combines single-camera depth estimation and stereo vision to enable accurate 3D localization of moving objects. A planar concentric circular microphone array constructed with MEMS microphones provides a compact, energy-efficient platform supporting 2D beam steering across azimuth and elevation. Real-time tracking outputs continuously adapt the array's focus, synchronizing the acoustic response with the target's position. By uniting learned spatial awareness with dynamic steering, the system maintains robust performance in the presence of multiple or moving sources. Experimental evaluation demonstrates significant gains in signal-to-interference ratio, making the design well-suited for teleconferencing, smart home devices, and assistive technologies.
- Abstract(参考訳): 物体追跡と音響ビームフォーミングの進歩は、監視、人間とコンピュータのインタラクション、ロボット工学の新たな能力を推進している。
本研究では,ビームフォーミングと深層学習に基づくトラッキングを統合し,音像定位と指向性音像定位を実現する組込みシステムを提案する。
このアプローチは、単一カメラの深さ推定とステレオビジョンを組み合わせて、動く物体の正確な3D位置決めを可能にする。
MEMSマイクロホンで構築された平面同心円マイクロホンアレイは、方位と高度を横切る2Dビームステアリングをサポートするコンパクトでエネルギー効率の良いプラットフォームを提供する。
リアルタイム追跡出力は、ターゲットの位置と音響応答を同期させ、配列の焦点に継続的に適応する。
学習した空間認識と動的ステアリングを結合することにより、複数のまたは動くソースが存在する場合、システムは堅牢な性能を維持する。
実験的評価では、信号対干渉比が著しく向上し、遠隔会議、スマートホームデバイス、アシスト技術に適している。
関連論文リスト
- Wandering around: A bioinspired approach to visual attention through object motion sensitivity [40.966228784674115]
アクティブビジョンは動的視覚認識を可能にし、コンピュータビジョンにおける静的フィードフォワードアーキテクチャの代替を提供する。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化を捉えてこの機能を強化する。
イベントベースのカメラが動いている間、移動物体を識別するためには、エージェントは物体の動きのセグメンテーション機構を必要とする。
本研究は、物体の運動感度を介して選択的注意を喚起するための、畳み込みニューラルネットワークバイオインスパイアされた注意システムを提案する。
論文 参考訳(メタデータ) (2025-02-10T18:16:30Z) - SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。
大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文 参考訳(メタデータ) (2024-12-22T05:04:17Z) - Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。
DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。
また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文 参考訳(メタデータ) (2024-12-01T09:37:46Z) - I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。
提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文 参考訳(メタデータ) (2024-06-10T13:08:31Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。
ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。
スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文 参考訳(メタデータ) (2023-05-03T17:40:49Z) - AcousticFusion: Fusing Sound Source Localization to Visual SLAM in
Dynamic Environments [19.413143126734383]
音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。
提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
論文 参考訳(メタデータ) (2021-08-03T02:10:26Z) - Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。
我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文 参考訳(メタデータ) (2020-07-30T15:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。