Fugu-MT 論文翻訳(概要): ANIRA: An Architecture for Neural Network Inference in Real-Time Audio Applications

論文の概要: ANIRA: An Architecture for Neural Network Inference in Real-Time Audio Applications

arxiv url: http://arxiv.org/abs/2506.12665v1
Date: Sat, 14 Jun 2025 23:55:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:46.615228
Title: ANIRA: An Architecture for Neural Network Inference in Real-Time Audio Applications
Title（参考訳）: ANIRA: リアルタイムオーディオアプリケーションにおけるニューラルネットワーク推論アーキテクチャ
Authors: Valentin Ackva, Fares Schulz,
Abstract要約: Aniraは、ニューラルネットワーク推論のためのクロスプラットフォームライブラリである。 OnNX、LibTorch、Lite Liteはリアルタイムオーディオアプリケーション向けにテストされている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Numerous tools for neural network inference are currently available, yet many do not meet the requirements of real-time audio applications. In response, we introduce anira, an efficient cross-platform library. To ensure compatibility with a broad range of neural network architectures and frameworks, anira supports ONNX Runtime, LibTorch, and TensorFlow Lite as backends. Each inference engine exhibits real-time violations, which anira mitigates by decoupling the inference from the audio callback to a static thread pool. The library incorporates built-in latency management and extensive benchmarking capabilities, both crucial to ensure a continuous signal flow. Three different neural network architectures for audio effect emulation are then subjected to benchmarking across various configurations. Statistical modeling is employed to identify the influence of various factors on performance. The findings indicate that for stateless models, ONNX Runtime exhibits the lowest runtimes. For stateful models, LibTorch demonstrates the fastest performance. Our results also indicate that for certain model-engine combinations, the initial inferences take longer, particularly when these inferences exhibit a higher incidence of real-time violations.
Abstract（参考訳）: ニューラルネットワーク推論のための多くのツールが現在利用可能だが、多くはリアルタイムオーディオアプリケーションの要件を満たしていない。これに対し,効率的なクロスプラットフォームライブラリであるAniraを導入する。幅広いニューラルネットワークアーキテクチャとフレームワークとの互換性を確保するため、Aniraは、バックエンドとして、ONNX Runtime、LibTorch、TensorFlow Liteをサポートする。各推論エンジンはリアルタイム違反を示し、Aniraはオーディオコールバックから静的スレッドプールへの推論を分離することで緩和する。このライブラリには、組み込みのレイテンシ管理と広範なベンチマーク機能が含まれており、どちらも連続的なシグナルフローを保証するのに不可欠である。オーディオエフェクトエミュレーションのための3つの異なるニューラルネットワークアーキテクチャは、様々な構成でベンチマークされる。統計的モデリングは、様々な要因がパフォーマンスに与える影響を特定するために用いられる。その結果、ステートレスモデルでは、ONNX Runtimeが最も低いランタイムを示します。ステートフルモデルでは、LibTorchが最速のパフォーマンスを示している。また,特定のモデルとエンジンの組み合わせの場合,特に実時間違反の発生頻度が高い場合には,初期推論が長引くことが示唆された。

関連論文リスト

Designing Neural Synthesizers for Low-Latency Interaction [8.27756937768806]
対話型ニューラルオーディオ合成(NAS)モデルで典型的に見られる遅延源とジッタについて検討する。次に、この解析を畳み込み変分オートエンコーダであるRAVEを用いて音色伝達のタスクに適用する。これは、私たちがBRAVEと呼ぶ低レイテンシで、ピッチと大音量の再現性が向上したモデルで終わる。
論文参考訳（メタデータ） (2025-03-14T16:30:31Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文参考訳（メタデータ） (2024-11-20T10:23:21Z)
HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-08-11T14:05:51Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文参考訳（メタデータ） (2021-05-07T11:39:05Z)
Generalized Latency Performance Estimation for Once-For-All Neural Architecture Search [0.0]
特定のハードウェアとNAS検索空間で訓練されたベースモデルを用いた微調整を含む2つの汎用性戦略を紹介します。 ProxylessNASに比べて50%以上低いRMSE損失を達成できる待ち時間予測モデル群を提供する。
論文参考訳（メタデータ） (2021-01-04T00:48:09Z)
LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud Networks [73.78551758828294]
LC-NASは、最小計算コストでポイントクラウド分類のための最先端アーキテクチャを見つけることができる。検索したアーキテクチャが、適度に低い精度で、望ましいレイテンシを実現する方法を示します。
論文参考訳（メタデータ） (2020-08-24T10:30:21Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。