論文の概要: Aurchestra: Fine-Grained, Real-Time Soundscape Control on Resource-Constrained Hearables
- arxiv url: http://arxiv.org/abs/2603.00395v1
- Date: Sat, 28 Feb 2026 00:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.169103
- Title: Aurchestra: Fine-Grained, Real-Time Soundscape Control on Resource-Constrained Hearables
- Title(参考訳): オーロシュトラ:資源拘束型可聴器の微粒・リアルタイム音場制御
- Authors: Seunghyun Oh, Malek Itani, Aseem Gauri, Shyamnath Gollakota,
- Abstract要約: Aurchestraは、リソース制約された聴取者に対して、きめ細かなリアルタイムサウンドスケープ制御を提供する最初のシステムである。
本システムには,(1)アクティブな音声クラスのみを探索する動的インタフェース,(2)リアルタイム・オンデバイスマルチ出力抽出ネットワークの2つの要素がある。
- 参考スコア(独自算出の注目度): 5.741120729206366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hearables are becoming ubiquitous, yet their sound controls remain blunt: users can either enable global noise suppression or focus on a single target sound. Real-world acoustic scenes, however, contain many simultaneous sources that users may want to adjust independently. We introduce Aurchestra, the first system to provide fine-grained, real-time soundscape control on resource-constrained hearables. Our system has two key components: (1) a dynamic interface that surfaces only active sound classes and (2) a real-time, on-device multi-output extraction network that generates separate streams for each selected class, achieving robust performance for upto 5 overlapping target sounds, and letting users mix their environment by customizing per-class volumes, much like an audio engineer mixes tracks. We optimize the model architecture for multiple compute-limited platforms and demonstrate real-time performance on 6 ms streaming audio chunks. Across real-world environments in previously unseen indoor and outdoor scenarios, our system enables expressive per-class sound control and achieves substantial improvements in target-class enhancement and interference suppression. Our results show that the world need not be heard as a single, undifferentiated stream: with Aurchestra, the soundscape becomes truly programmable.
- Abstract(参考訳): 可聴音はますます広まりつつあるが、音のコントロールは鈍いままだ。ユーザーはグローバルなノイズ抑制を有効にするか、単一のターゲット音に集中することができる。
しかし、現実の音響シーンには、ユーザーが独立して調整したいかもしれない複数の同時音源が含まれている。
Aurchestraは、リソース制約された聴取者に対して、きめ細かなリアルタイムサウンドスケープ制御を提供する最初のシステムである。
本システムには,(1)アクティブな音のクラスのみをサーフェスする動的インタフェース,(2)選択したクラス毎に個別のストリームを生成するリアルタイム・オンデバイスマルチアウトプット抽出ネットワーク,(3)最大5倍の重畳音に対するロバストな性能の実現,(3)音声技術者がトラックを混在させるような,クラス単位のボリュームをカスタマイズして環境を混在させる,という2つの重要なコンポーネントがある。
我々は,複数の計算制限のあるプラットフォームを対象としたモデルアーキテクチャを最適化し,6ミリ秒のストリーミングオーディオチャンク上でのリアルタイムパフォーマンスを実演する。
屋内・屋外シナリオにおける実環境全体において,本システムでは,表現力のあるクラスごとの音声制御が可能であり,ターゲットクラスの強化と干渉抑制の大幅な改善を実現している。
以上の結果から,Aurchestraでは,音環境が本当にプログラム可能になった。
関連論文リスト
- SAM Audio: Segment Anything in Audio [55.50609519820557]
一般的なオーディオソース分離は、マルチモーダルAIシステムにとって重要な機能である。
本稿では,一般的な音声分離のための基礎モデルであるSAM Audioを紹介する。
テキスト、ビジュアル、タイムスパンを単一のフレームワーク内で統合する。
論文 参考訳(メタデータ) (2025-12-19T22:14:23Z) - ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。
複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。
実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-24T17:58:21Z) - YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls [10.429203168607147]
YingSoundは、ビデオ誘導音声生成のための基礎モデルである。
数ショット設定で高品質なオーディオ生成をサポートする。
本稿では,YingSoundが自動評価と人間の研究を通じて,高品質な同期音を効果的に生成できることを示す。
論文 参考訳(メタデータ) (2024-12-12T10:55:57Z) - Active Audio-Visual Separation of Dynamic Sound Sources [93.97385339354318]
本稿では,カメラとマイクロホンを制御するための動作ポリシーを学習する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。
本モデルでは,時間変化のある音声ターゲットの連続的な分離を行うために,効率的な振る舞いを学習できることが示される。
論文 参考訳(メタデータ) (2022-02-02T02:03:28Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - LEAF: A Learnable Frontend for Audio Classification [18.696215611965204]
mel-filterbanksの代替として使用できる、原則付き、軽量、完全に学習可能なアーキテクチャを導入しました。
本システムでは,フィルタリングからプール,圧縮,正規化まで,音声特徴抽出のすべての操作を学習し,任意のニューラルネットワークに統合することができる。
論文 参考訳(メタデータ) (2021-01-21T13:25:58Z) - Into the Wild with AudioScope: Unsupervised Audio-Visual Separation of
On-Screen Sounds [33.4237979175049]
本稿では,新しい音声-視覚的分離フレームワークであるAudioScopeを紹介する。
実際の映像からスクリーン上の音源を分離するための監督なしでトレーニングすることができる。
オープンドメインYFCC100mビデオデータから抽出したビデオクリップのデータセットを用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2020-11-02T17:36:13Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。