Fugu-MT 論文翻訳(概要): Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments

論文の概要: Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments

arxiv url: http://arxiv.org/abs/2511.19396v1
Date: Mon, 24 Nov 2025 18:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-25 18:34:25.365459
Title: Real-Time Object Tracking with On-Device Deep Learning for Adaptive Beamforming in Dynamic Acoustic Environments
Title（参考訳）: 動的音響環境における適応ビームフォーミングのためのオンデバイス深層学習によるリアルタイム物体追跡
Authors: Jorge Ortigoso-Narro, Jose A. Belloch, Adrian Amor-Martin, Sandra Roger, Maximo Cobos,
Abstract要約: 本研究は,深層学習に基づくトラッキングとビームフォーミングを統合し,正確な音源定位を実現する組込みシステムを提案する。このシステムは、遠隔会議、スマートホームデバイス、および補助技術に適している。
参考スコア（独自算出の注目度）: 3.0718743078604067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in object tracking and acoustic beamforming are driving new capabilities in surveillance, human-computer interaction, and robotics. This work presents an embedded system that integrates deep learning-based tracking with beamforming to achieve precise sound source localization and directional audio capture in dynamic environments. The approach combines single-camera depth estimation and stereo vision to enable accurate 3D localization of moving objects. A planar concentric circular microphone array constructed with MEMS microphones provides a compact, energy-efficient platform supporting 2D beam steering across azimuth and elevation. Real-time tracking outputs continuously adapt the array's focus, synchronizing the acoustic response with the target's position. By uniting learned spatial awareness with dynamic steering, the system maintains robust performance in the presence of multiple or moving sources. Experimental evaluation demonstrates significant gains in signal-to-interference ratio, making the design well-suited for teleconferencing, smart home devices, and assistive technologies.
Abstract（参考訳）: 物体追跡と音響ビームフォーミングの進歩は、監視、人間とコンピュータのインタラクション、ロボット工学の新たな能力を推進している。本研究では,ビームフォーミングと深層学習に基づくトラッキングを統合し,音像定位と指向性音像定位を実現する組込みシステムを提案する。このアプローチは、単一カメラの深さ推定とステレオビジョンを組み合わせて、動く物体の正確な3D位置決めを可能にする。 MEMSマイクロホンで構築された平面同心円マイクロホンアレイは、方位と高度を横切る2Dビームステアリングをサポートするコンパクトでエネルギー効率の良いプラットフォームを提供する。リアルタイム追跡出力は、ターゲットの位置と音響応答を同期させ、配列の焦点に継続的に適応する。学習した空間認識と動的ステアリングを結合することにより、複数のまたは動くソースが存在する場合、システムは堅牢な性能を維持する。実験的評価では、信号対干渉比が著しく向上し、遠隔会議、スマートホームデバイス、アシスト技術に適している。

関連論文リスト

Stereo-Inertial Poser: Towards Metric-Accurate Shape-Aware Motion Capture Using Sparse IMUs and a Single Stereo Camera [54.967647497048205]
本稿では,距離精度と形状を考慮した3次元動作を推定するリアルタイムモーションキャプチャシステムであるStereo-Inertial Poserを提案する。モノクラーRGBをステレオビジョンに置き換え、直接3次元キーポイント抽出と形状パラメータ推定を可能にした。ドリフトフリーなグローバル翻訳を長い記録時間で生成し,フットスケート効果を低減させる。
論文参考訳（メタデータ） (2026-03-02T17:46:38Z)
Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound [5.591620304505415]
この研究は、AVWM (Audio-Visual World Models) のための最初の公式なフレームワークを提示する。マルチモーダル環境シミュレーションを、部分的に観察可能な決定プロセスとして定式化し、音声・視覚的観察、きめ細かいアクション、タスク報酬を提供する。本稿では,視覚学習と聴覚学習のバランスをとる新しいモダリティ・エキスパート・アーキテクチャを用いたオーディオ・ビジュアル・コンディショナル・トランスフォーマーを提案する。
論文参考訳（メタデータ） (2025-11-30T13:11:56Z)
Audio-Guided Dynamic Modality Fusion with Stereo-Aware Attention for Audio-Visual Navigation [41.85539404067887]
オーディオ視覚ナビゲーション(AVN)タスクでは、エンボディエージェントは複雑な3D環境において、音源を自律的にローカライズする必要がある。既存の手法は、しばしば静的なモダリティ融合戦略に依存し、ステレオオーディオに埋め込まれた空間的手がかりを無視する。本稿では,2つの重要なイノベーションを生かした,エンドツーエンドの強化学習に基づくAVNフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-21T05:11:09Z)
Wandering around: A bioinspired approach to visual attention through object motion sensitivity [40.966228784674115]
アクティブビジョンは動的視覚認識を可能にし、コンピュータビジョンにおける静的フィードフォワードアーキテクチャの代替を提供する。哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化を捉えてこの機能を強化する。イベントベースのカメラが動いている間、移動物体を識別するためには、エージェントは物体の動きのセグメンテーション機構を必要とする。本研究は、物体の運動感度を介して選択的注意を喚起するための、畳み込みニューラルネットワークバイオインスパイアされた注意システムを提案する。
論文参考訳（メタデータ） (2025-02-10T18:16:30Z)
SoundLoc3D: Invisible 3D Sound Source Localization and Classification Using a Multimodal RGB-D Acoustic Camera [61.642416712939095]
SoundLoc3Dはタスクをセット予測問題として扱い、セットの各要素は潜在的な音源に対応する。大規模シミュレーションデータセットにおけるSoundLoc3Dの有効性と優位性を示す。
論文参考訳（メタデータ） (2024-12-22T05:04:17Z)
Open-World Drone Active Tracking with Goal-Centered Rewards [62.21394499788672]
Drone Visual Active Trackingは、視覚的な観察に基づいてモーションシステムを制御することで、対象物を自律的に追跡することを目的としている。 DATは,世界初となるエア・ツー・グラウンド・トラッキング・ベンチマークである。また,複雑なシナリオにおけるドローン追跡目標の性能向上を目的としたGC-VATを提案する。
論文参考訳（メタデータ） (2024-12-01T09:37:46Z)
I-MPN: Inductive Message Passing Network for Efficient Human-in-the-Loop Annotation of Mobile Eye Tracking Data [4.487146086221174]
本稿では,移動眼球追跡設定における物体の自動認識のための新しい人間中心学習アルゴリズムを提案する。提案手法は,オブジェクト検出器と空間的関係を考慮した誘導型メッセージパッシングネットワーク(I-MPN)をシームレスに統合し,ノードプロファイル情報を活用し,オブジェクト相関を捉える。
論文参考訳（メタデータ） (2024-06-10T13:08:31Z)
EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。大規模AR-MOTベンチマークの最初のセットを確立する。
論文参考訳（メタデータ） (2024-02-28T12:50:16Z)
AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。 3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文参考訳（メタデータ） (2023-07-07T17:59:14Z)
DynamicStereo: Consistent Dynamic Depth from Stereo Videos [91.1804971397608]
ステレオビデオの相違を推定するためにDynamicStereoを提案する。ネットワークは、その予測の時間的一貫性を改善するために、隣接するフレームからの情報をプールすることを学ぶ。スキャンされた環境における人や動物の合成ビデオを含む新しいベンチマークデータセットであるDynamic Replicaも導入した。
論文参考訳（メタデータ） (2023-05-03T17:40:49Z)
AcousticFusion: Fusing Sound Source Localization to Visual SLAM in Dynamic Environments [19.413143126734383]
音源方向をRGB-D画像に融合する新しい音声-視覚融合手法を提案する。提案手法は、非常に小さな計算資源を用いて、非常に安定した自己ローカライゼーション結果を得る。
論文参考訳（メタデータ） (2021-08-03T02:10:26Z)
Learning to Set Waypoints for Audio-Visual Navigation [89.42192208471735]
音声視覚ナビゲーションでは、エージェントが視覚と音の両方を使って複雑な3D環境をインテリジェントに移動し、音源を見つける。既存のモデルは、エージェント動作の一定の粒度で動作することを学び、オーディオ観測の単純な再帰的な集約に依存する。本稿では,2つの重要な要素を持つ音声視覚ナビゲーションに対する強化学習手法を提案する。
論文参考訳（メタデータ） (2020-08-21T18:00:33Z)
Event-based Stereo Visual Odometry [42.77238738150496]
ステレオ・イベント・ベースのカメラ・リグが取得したデータから視覚計測の問題に対する解決策を提案する。我々は,シンプルかつ効率的な表現を用いて,ステレオイベントベースのデータの時間的一貫性を最大化する。
論文参考訳（メタデータ） (2020-07-30T15:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。