論文の概要: AIDA: An Active Inference-based Design Agent for Audio Processing
Algorithms
- arxiv url: http://arxiv.org/abs/2112.13366v1
- Date: Sun, 26 Dec 2021 11:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 15:10:43.886869
- Title: AIDA: An Active Inference-based Design Agent for Audio Processing
Algorithms
- Title(参考訳): AIDA:オーディオ処理アルゴリズムのためのアクティブ推論ベース設計エージェント
- Authors: Albert Podusenko, Bart van Erp, Magnus Koudahl, Bert de Vries
- Abstract要約: AIDAは、パーソナライズされたオーディオ処理アルゴリズムを反復的に設計する、アクティブな推論ベースのエージェントである。
AIDAは、最適な(音響的な)文脈対応トライアル設計の問題として、"最も興味深い代替"を探すことを解釈している。
AIDAは、音響信号とユーザ応答のための生成確率モデルを含む。
- 参考スコア(独自算出の注目度): 3.9457043990895904
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we present AIDA, which is an active inference-based agent that
iteratively designs a personalized audio processing algorithm through situated
interactions with a human client. The target application of AIDA is to propose
on-the-spot the most interesting alternative values for the tuning parameters
of a hearing aid (HA) algorithm, whenever a HA client is not satisfied with
their HA performance. AIDA interprets searching for the "most interesting
alternative" as an issue of optimal (acoustic) context-aware Bayesian trial
design. In computational terms, AIDA is realized as an active inference-based
agent with an Expected Free Energy criterion for trial design. This type of
architecture is inspired by neuro-economic models on efficient (Bayesian) trial
design in brains and implies that AIDA comprises generative probabilistic
models for acoustic signals and user responses. We propose a novel generative
model for acoustic signals as a sum of time-varying auto-regressive filters and
a user response model based on a Gaussian Process Classifier. The full AIDA
agent has been implemented in a factor graph for the generative model and all
tasks (parameter learning, acoustic context classification, trial design, etc.)
are realized by variational message passing on the factor graph. All
verification and validation experiments and demonstrations are freely
accessible at our GitHub repository.
- Abstract(参考訳): 本稿では,人間との位置インタラクションを通じてパーソナライズされた音声処理アルゴリズムを反復的に設計する,アクティブな推論に基づくエージェントであるaidaを提案する。
AIDAの目標は、HAクライアントがHA性能に満足していない場合に、補聴器(HA)アルゴリズムのチューニングパラメータに対して最も興味深い代替値を提案することである。
AIDAは、最適(音響)なベイズ試験設計の問題として「最も興味深い代替」を探すことを解釈している。
計算用語では、AIDAは、トライアル設計のための期待自由エネルギー基準を持つアクティブな推論ベースのエージェントとして実現される。
このタイプのアーキテクチャは、脳内の効率的な(ベイジアン)トライアル設計に関する神経経済モデルにインスパイアされており、AIDAは音響信号とユーザ応答の生成確率モデルから構成されていることを示唆している。
本稿では,ガウス過程分類器に基づく時間変化自己回帰フィルタとユーザ応答モデルの和として,音響信号の新たな生成モデルを提案する。
全AIDAエージェントは生成モデルのための因子グラフに実装され、パラメータ学習、音響コンテキスト分類、トライアルデザインなど)全てのタスクは、因子グラフ上の変分メッセージパッシングによって実現されている。
検証と検証の実験とデモはすべて、GitHubリポジトリから自由にアクセスできます。
関連論文リスト
- Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Sequence Generation via Subsequence Similarity: Theory and Application
to UAV Identification [0.0]
サブシーケンスレベルでの類似性がシーケンスレベルでの類似性にどのように影響するかに焦点を当てる。
実数列と生成列の最適輸送を対応する部分列のそれに基づいて導出する。
本研究では、無線周波数(RF)信号の制限による無人航空機(UAV)の識別問題に適用することで、このアプローチの改善を実証する。
論文 参考訳(メタデータ) (2023-01-20T02:35:43Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - CASA-Based Speaker Identification Using Cascaded GMM-CNN Classifier in
Noisy and Emotional Talking Conditions [1.6449390849183358]
本研究の目的は、雑音や感情的な発話条件などの実際の応用状況において、テキストに依存しない話者識別性能を高めることである。
本研究は,感情的・高雑音的環境下での話者識別の精度向上のための新しいアルゴリズムを提案し,評価する。
論文 参考訳(メタデータ) (2021-02-11T08:56:12Z) - Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。
本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。
提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-08-11T05:54:54Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。