Fugu-MT 論文翻訳(概要): AIDA: An Active Inference-based Design Agent for Audio Processing Algorithms

論文の概要: AIDA: An Active Inference-based Design Agent for Audio Processing Algorithms

arxiv url: http://arxiv.org/abs/2112.13366v1
Date: Sun, 26 Dec 2021 11:56:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-28 15:10:43.886869
Title: AIDA: An Active Inference-based Design Agent for Audio Processing Algorithms
Title（参考訳）: AIDA:オーディオ処理アルゴリズムのためのアクティブ推論ベース設計エージェント
Authors: Albert Podusenko, Bart van Erp, Magnus Koudahl, Bert de Vries
Abstract要約: AIDAは、パーソナライズされたオーディオ処理アルゴリズムを反復的に設計する、アクティブな推論ベースのエージェントである。 AIDAは、最適な(音響的な)文脈対応トライアル設計の問題として、"最も興味深い代替"を探すことを解釈している。 AIDAは、音響信号とユーザ応答のための生成確率モデルを含む。
参考スコア（独自算出の注目度）: 3.9457043990895904
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this paper we present AIDA, which is an active inference-based agent that iteratively designs a personalized audio processing algorithm through situated interactions with a human client. The target application of AIDA is to propose on-the-spot the most interesting alternative values for the tuning parameters of a hearing aid (HA) algorithm, whenever a HA client is not satisfied with their HA performance. AIDA interprets searching for the "most interesting alternative" as an issue of optimal (acoustic) context-aware Bayesian trial design. In computational terms, AIDA is realized as an active inference-based agent with an Expected Free Energy criterion for trial design. This type of architecture is inspired by neuro-economic models on efficient (Bayesian) trial design in brains and implies that AIDA comprises generative probabilistic models for acoustic signals and user responses. We propose a novel generative model for acoustic signals as a sum of time-varying auto-regressive filters and a user response model based on a Gaussian Process Classifier. The full AIDA agent has been implemented in a factor graph for the generative model and all tasks (parameter learning, acoustic context classification, trial design, etc.) are realized by variational message passing on the factor graph. All verification and validation experiments and demonstrations are freely accessible at our GitHub repository.
Abstract（参考訳）: 本稿では,人間との位置インタラクションを通じてパーソナライズされた音声処理アルゴリズムを反復的に設計する,アクティブな推論に基づくエージェントであるaidaを提案する。 AIDAの目標は、HAクライアントがHA性能に満足していない場合に、補聴器(HA)アルゴリズムのチューニングパラメータに対して最も興味深い代替値を提案することである。 AIDAは、最適(音響)なベイズ試験設計の問題として「最も興味深い代替」を探すことを解釈している。計算用語では、AIDAは、トライアル設計のための期待自由エネルギー基準を持つアクティブな推論ベースのエージェントとして実現される。このタイプのアーキテクチャは、脳内の効率的な(ベイジアン)トライアル設計に関する神経経済モデルにインスパイアされており、AIDAは音響信号とユーザ応答の生成確率モデルから構成されていることを示唆している。本稿では,ガウス過程分類器に基づく時間変化自己回帰フィルタとユーザ応答モデルの和として,音響信号の新たな生成モデルを提案する。全AIDAエージェントは生成モデルのための因子グラフに実装され、パラメータ学習、音響コンテキスト分類、トライアルデザインなど)全てのタスクは、因子グラフ上の変分メッセージパッシングによって実現されている。検証と検証の実験とデモはすべて、GitHubリポジトリから自由にアクセスできます。

関連論文リスト

Creative Adversarial Testing (CAT): A Novel Framework for Evaluating Goal-Oriented Agentic AI Systems [0.0]
CAT(Creative Adversarial Testing)は、エージェントAIタスクとシステムの意図する目的との間の複雑な関係をキャプチャして分析するために設計された、新しいアプローチである。我々は、Alexa+オーディオサービスに倣った合成相互作用データを用いて、CATフレームワークを広範囲にシミュレーションすることで検証する。我々の結果は、CATフレームワークが目標とタスクのアライメントに関する前例のない洞察を提供し、エージェントAIシステムのより効率的な最適化と開発を可能にしていることを実証している。
論文参考訳（メタデータ） (2025-09-26T23:52:20Z)
ATLAS: AI-Native Receiver Test-and-Measurement by Leveraging AI-Guided Search [0.1631115063641726]
ATLASはAI誘導型アプローチで、トレーニング済みのAIネイティブレシーバモデルのテストバッテリを生成し、古典的なレシーバアーキテクチャのパフォーマンスをベンチマークする。我々は、NVIDIAのSionna環境における微分可能なテンソルを用いた古典的受信機と同様に、よく知られたDeepRx AIネイティブ受信モデルを採用することで、我々のアプローチを実装し、検証する。
論文参考訳（メタデータ） (2025-08-17T02:12:15Z)
Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。 DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。大規模な実験は、DETA++の有効性と柔軟性を示している。
論文参考訳（メタデータ） (2025-06-19T14:05:57Z)
ALINE: Joint Amortization for Bayesian Inference and Active Data Acquisition [21.747318210534896]
ALINE(Amortized Active Learning and Inference Engine)は、ベイズ推論とアクティブデータ取得のための統合されたフレームワークである。 ALINEは、インフォメーションポイントの効率的な選択とともに、インスタントと正確な推論の両方を提供する。
論文参考訳（メタデータ） (2025-06-08T19:15:34Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
AEON: Adaptive Estimation of Instance-Dependent In-Distribution and Out-of-Distribution Label Noise for Robust Learning [17.397478141194778]
実世界のデータセットには、イン・ディストリビューション(ID)とアウト・オブ・ディストリビューション(OOD)のインスタンス依存ラベルノイズが混在することが多い。本稿では,これらの研究ギャップに対処するために,インスタンス依存型In-DistributionとOut-of-Distribution Label Noise(AEON)の適応推定手法を提案する。 AEONは、インスタンス依存IDとOODラベルのノイズ率を動的に推定する効率的な1段階雑音ラベル学習手法である。
論文参考訳（メタデータ） (2025-01-23T05:19:00Z)
Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation [13.009945735929445]
本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
論文参考訳（メタデータ） (2024-10-21T03:48:23Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文参考訳（メタデータ） (2024-09-16T06:33:26Z)
Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文参考訳（メタデータ） (2024-08-12T16:23:58Z)
Word-Level ASR Quality Estimation for Efficient Corpus Sampling and Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。 NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文参考訳（メタデータ） (2024-01-20T16:48:55Z)
Leveraging Pretrained Representations with Task-related Keywords for Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文参考訳（メタデータ） (2023-03-14T16:03:28Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)
Neural PLDA Modeling for End-to-End Speaker Verification [40.842070706362534]
ニューラルPLDA(NPLDA)と呼ばれる話者検証におけるバックエンドモデリングのためのニューラルネットワークアプローチを提案する。本稿では,NPLDAネットワークと組込みニューラルネットワーク(xベクトルネットワーク)をエンドツーエンドで共同最適化するために,本研究を拡張した。提案したE2Eモデルは,xベクトルPLDAベースライン話者検証システムよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-08-11T05:54:54Z)
Generating diverse and natural text-to-speech samples using a quantized fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文参考訳（メタデータ） (2020-02-06T12:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。