Fugu-MT 論文翻訳(概要): Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation

論文の概要: Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation

arxiv url: http://arxiv.org/abs/2410.15620v1
Date: Mon, 21 Oct 2024 03:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.235992
Title: Acoustic Model Optimization over Multiple Data Sources: Merging and Valuation
Title（参考訳）: 複数のデータソースに対する音響モデル最適化:マージと評価
Authors: Victor Junqiu Wei, Weicheng Wang, Di Jiang, Conghui Tan, Rongzhong Lian,
Abstract要約: 本稿では,音声認識分野の課題を解くための新しいパラダイムを提案する。最初の段階では、完全な音声データの異なるサブセットに基づいて複数の音響モデルを訓練する。第2段階では、2つの新しいアルゴリズムを用いて高品質な音響モデルを生成する。
参考スコア（独自算出の注目度）: 13.009945735929445
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the rising awareness of privacy protection and the voluminous scale of speech data, it is becoming infeasible for Automatic Speech Recognition (ASR) system developers to train the acoustic model with complete data as before. For example, the data may be owned by different curators, and it is not allowed to share with others. In this paper, we propose a novel paradigm to solve salient problems plaguing the ASR field. In the first stage, multiple acoustic models are trained based upon different subsets of the complete speech data, while in the second phase, two novel algorithms are utilized to generate a high-quality acoustic model based upon those trained on data subsets. We first propose the Genetic Merge Algorithm (GMA), which is a highly specialized algorithm for optimizing acoustic models but suffers from low efficiency. We further propose the SGD-Based Optimizational Merge Algorithm (SOMA), which effectively alleviates the efficiency bottleneck of GMA and maintains superior model accuracy. Extensive experiments on public data show that the proposed methods can significantly outperform the state-of-the-art. Furthermore, we introduce Shapley Value to estimate the contribution score of the trained models, which is useful for evaluating the effectiveness of the data and providing fair incentives to their curators.
Abstract（参考訳）: プライバシー保護に対する意識の高まりと、音声データの膨大な規模により、ASR(Automatic Speech Recognition)システム開発者は、従来のように完全なデータで音響モデルをトレーニングすることは不可能になっている。例えば、データは異なるキュレーターによって所有され、他の人と共有することは許されない。本稿では,ASR分野を悩ませる健全な問題を解くための新しいパラダイムを提案する。第1段階では、完全音声データの異なるサブセットに基づいて複数の音響モデルを訓練し、第2段階では、2つの新しいアルゴリズムを用いて、データサブセットに基づいて訓練されたモデルに基づいて高品質な音響モデルを生成する。本稿ではまず,音響モデルの最適化のための高度に専門化されたアルゴリズムである遺伝的マージアルゴリズム(GMA)を提案する。さらに、GMAの効率ボトルネックを効果的に軽減し、優れたモデル精度を維持するSGD-Based Optimizational Merge Algorithm (SOMA)を提案する。公開データに対する大規模な実験により,提案手法は最先端技術よりも大幅に優れていることが示された。さらに,学習モデルのコントリビューションスコアを推定するためにShapley Valueを導入し,データの有効性を評価し,キュレーターに公平なインセンティブを与えるのに有用である。

関連論文リスト

GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO [3.189559302776161]
人間のフィードバックから強化学習の効率性とスケーラビリティを高めるためには,高性能な報酬モデルを数ショットデータでトレーニングする能力が重要である。本稿では,小規模データセットでトレーニングした生成報酬モデルが大規模データセットでトレーニングしたモデルに匹敵するパフォーマンスを実現するためのデータ拡張拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T16:37:13Z)
Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection [71.92083784393418]
Best-of-N (BON) サンプリングのような推論時間法は、パフォーマンスを改善するための単純で効果的な代替手段を提供する。本稿では,反復的改良と動的候補評価,検証器による選択を併用した反復的エージェント復号(IAD)を提案する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Debiasing Multimodal Large Language Models via Noise-Aware Preference Optimization [31.741110625305186]
本稿では、優先最適化のパラダイムを用いて、モダリティバイアス問題を解決することを提案する。具体的には、まず摂動を導入し、特定のモダリティの情報量を減らすことでデータセットを構築する。自動構築したデータにおける避けられないノイズに対処するために、ノイズロバストな平均絶対誤差と直接選好最適化における二項交叉エントロピーを組み合わせる。
論文参考訳（メタデータ） (2025-03-23T04:00:11Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
Self-Steering Optimization: Autonomous Preference Optimization for Large Language Models [79.84205827056907]
本稿では,高品質な嗜好データを自律的に生成するアルゴリズムであるセルフステアリング最適化(SSO$)を提案する。 $SSO$は、ポリシーモデル自体からデータジェネレータを構築するために、特別な最適化目標を採用しています。評価の結果,$SSO$は人選好アライメントと報酬最適化のベースラインを一貫して上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-22T16:04:03Z)
Improving Anomalous Sound Detection via Low-Rank Adaptation Fine-Tuning of Pre-Trained Audio Models [45.90037602677841]
本稿では,音声事前学習モデルを利用した頑健なAnomalous Sound Detection (ASD)モデルを提案する。マシン操作データを用いてこれらのモデルを微調整し、データ拡張戦略としてSpecAugを使用します。実験では,従来のSOTAモデルと比較して6.48%の大幅な改善が得られた。
論文参考訳（メタデータ） (2024-09-11T05:19:38Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Fine tuning Pre trained Models for Robustness Under Noisy Labels [34.68018860186995]
トレーニングデータセットにノイズの多いラベルが存在することは、機械学習モデルのパフォーマンスに大きな影響を及ぼす可能性がある。我々は、事前学習されたモデルの事前知識を頑健かつ効率的に伝達するTURNと呼ばれる新しいアルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-24T20:28:59Z)
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文参考訳（メタデータ） (2022-04-05T07:02:53Z)
Representative Subset Selection for Efficient Fine-Tuning in Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-18T10:12:24Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Iterative Methods for Private Synthetic Data: Unifying Framework and New Methods [18.317488965846636]
クエリリリースのためのプライベート合成データ生成について検討する。目標は、差分プライバシーの対象となるセンシティブデータセットの衛生バージョンを構築することだ。本枠組みでは,2つの新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-14T04:19:35Z)
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Driven Adaptive Prior [103.00403682863427]
条件拡散モデルの効率を改善するために, PreGrad を提案する。 PriorGradはデータとパラメータの効率を向上し、品質を向上する。
論文参考訳（メタデータ） (2021-06-11T14:04:03Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)
Decomposed Adversarial Learned Inference [118.27187231452852]
我々は,DALI(Decomposed Adversarial Learned Inference)という新しいアプローチを提案する。 DALIは、データ空間とコード空間の両方の事前および条件分布を明示的に一致させる。 MNIST, CIFAR-10, CelebAデータセットにおけるDALIの有効性を検証する。
論文参考訳（メタデータ） (2020-04-21T20:00:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。