論文の概要: AIDA: An Active Inference-based Design Agent for Audio Processing
Algorithms
- arxiv url: http://arxiv.org/abs/2112.13366v1
- Date: Sun, 26 Dec 2021 11:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:10:43.886869
- Title: AIDA: An Active Inference-based Design Agent for Audio Processing
Algorithms
- Title(参考訳): AIDA:オーディオ処理アルゴリズムのためのアクティブ推論ベース設計エージェント
- Authors: Albert Podusenko, Bart van Erp, Magnus Koudahl, Bert de Vries
- Abstract要約: AIDAは、パーソナライズされたオーディオ処理アルゴリズムを反復的に設計する、アクティブな推論ベースのエージェントである。
AIDAは、最適な(音響的な)文脈対応トライアル設計の問題として、"最も興味深い代替"を探すことを解釈している。
AIDAは、音響信号とユーザ応答のための生成確率モデルを含む。
- 参考スコア(独自算出の注目度): 3.9457043990895904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we present AIDA, which is an active inference-based agent that
iteratively designs a personalized audio processing algorithm through situated
interactions with a human client. The target application of AIDA is to propose
on-the-spot the most interesting alternative values for the tuning parameters
of a hearing aid (HA) algorithm, whenever a HA client is not satisfied with
their HA performance. AIDA interprets searching for the "most interesting
alternative" as an issue of optimal (acoustic) context-aware Bayesian trial
design. In computational terms, AIDA is realized as an active inference-based
agent with an Expected Free Energy criterion for trial design. This type of
architecture is inspired by neuro-economic models on efficient (Bayesian) trial
design in brains and implies that AIDA comprises generative probabilistic
models for acoustic signals and user responses. We propose a novel generative
model for acoustic signals as a sum of time-varying auto-regressive filters and
a user response model based on a Gaussian Process Classifier. The full AIDA
agent has been implemented in a factor graph for the generative model and all
tasks (parameter learning, acoustic context classification, trial design, etc.)
are realized by variational message passing on the factor graph. All
verification and validation experiments and demonstrations are freely
accessible at our GitHub repository.
- Abstract(参考訳): 本稿では,人間との位置インタラクションを通じてパーソナライズされた音声処理アルゴリズムを反復的に設計する,アクティブな推論に基づくエージェントであるaidaを提案する。
AIDAの目標は、HAクライアントがHA性能に満足していない場合に、補聴器(HA)アルゴリズムのチューニングパラメータに対して最も興味深い代替値を提案することである。
AIDAは、最適(音響)なベイズ試験設計の問題として「最も興味深い代替」を探すことを解釈している。
計算用語では、AIDAは、トライアル設計のための期待自由エネルギー基準を持つアクティブな推論ベースのエージェントとして実現される。
このタイプのアーキテクチャは、脳内の効率的な(ベイジアン)トライアル設計に関する神経経済モデルにインスパイアされており、AIDAは音響信号とユーザ応答の生成確率モデルから構成されていることを示唆している。
本稿では,ガウス過程分類器に基づく時間変化自己回帰フィルタとユーザ応答モデルの和として,音響信号の新たな生成モデルを提案する。
全AIDAエージェントは生成モデルのための因子グラフに実装され、パラメータ学習、音響コンテキスト分類、トライアルデザインなど)全てのタスクは、因子グラフ上の変分メッセージパッシングによって実現されている。
検証と検証の実験とデモはすべて、GitHubリポジトリから自由にアクセスできます。
関連論文リスト
- AEON: Adaptive Estimation of Instance-Dependent In-Distribution and Out-of-Distribution Label Noise for Robust Learning [17.397478141194778]
実世界のデータセットには、イン・ディストリビューション(ID)とアウト・オブ・ディストリビューション(OOD)のインスタンス依存ラベルノイズが混在することが多い。
本稿では,これらの研究ギャップに対処するために,インスタンス依存型In-DistributionとOut-of-Distribution Label Noise(AEON)の適応推定手法を提案する。
AEONは、インスタンス依存IDとOODラベルのノイズ率を動的に推定する効率的な1段階雑音ラベル学習手法である。
論文 参考訳(メタデータ) (2025-01-23T05:19:00Z) - Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。
最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。
第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文 参考訳(メタデータ) (2024-10-21T03:48:23Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。