論文の概要: The Pipeline System of ASR and NLU with MLM-based Data Augmentation
toward STOP Low-resource Challenge
- arxiv url: http://arxiv.org/abs/2305.01194v2
- Date: Thu, 11 May 2023 07:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 17:33:53.122092
- Title: The Pipeline System of ASR and NLU with MLM-based Data Augmentation
toward STOP Low-resource Challenge
- Title(参考訳): STOP低リソースチャレンジに向けたMLMデータ拡張によるASRとNLUのパイプラインシステム
- Authors: Hayato Futami, Jessica Huynh, Siddhant Arora, Shih-Lun Wu, Yosuke
Kashiwagi, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe
- Abstract要約: 本稿では,Spoken Language Understanding Grand Challengeにおける低リソース領域適応トラック(Track 3)について述べる。
トラックでは、ASRとNLUのパイプラインアプローチを採用しています。
その結果、リマインダー/ウェザードメインの精度63.3/75.0(平均69.15)を達成し、挑戦で1位を獲得した。
- 参考スコア(独自算出の注目度): 33.89616011003973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our system for the low-resource domain adaptation track
(Track 3) in Spoken Language Understanding Grand Challenge, which is a part of
ICASSP Signal Processing Grand Challenge 2023. In the track, we adopt a
pipeline approach of ASR and NLU. For ASR, we fine-tune Whisper for each domain
with upsampling. For NLU, we fine-tune BART on all the Track3 data and then on
low-resource domain data. We apply masked LM (MLM) -based data augmentation,
where some of input tokens and corresponding target labels are replaced using
MLM. We also apply a retrieval-based approach, where model input is augmented
with similar training samples. As a result, we achieved exact match (EM)
accuracy 63.3/75.0 (average: 69.15) for reminder/weather domain, and won the
1st place at the challenge.
- Abstract(参考訳): 本稿では,ICASSP 信号処理グランドチャレンジ 2023 の一部である Spoken Language Understanding Grand Challenge における低リソース領域適応トラック (Track 3) について述べる。
トラックでは、ASRとNLUのパイプラインアプローチを採用しています。
ASRでは、アップサンプリングで各ドメインに対してWhisperを微調整します。
NLUでは、すべてのTrack3データと低リソースのドメインデータに基づいてBARTを微調整します。
マスク付きLM(MLM)ベースのデータ拡張を適用し、入力トークンと対応するターゲットラベルのいくつかをMLMで置き換える。
また,モデル入力に類似したトレーニングサンプルを追加する,検索ベースのアプローチも適用する。
その結果、リマインダー/ウェザードメインの精度63.3/75.0(平均69.15)を達成し、挑戦で1位を獲得した。
関連論文リスト
- RecFlow: An Industrial Full Flow Recommendation Dataset [66.06445386541122]
産業レコメンデーションシステムは、商品をユーザに届ける際の効率性と効率のバランスをとるために、多段階パイプラインに依存している。
オフラインRSベンチマークと実際のオンライン環境とのギャップを埋めるために設計された産業用フルフローレコメンデーションデータセットであるRecFlowを紹介します。
我々のデータセットは、約9万項目にわたる42Kユーザからの38万のインタラクションで構成され、37日間にわたる9.3Mオンラインリクエストから収集された1.9Bステージサンプルと6ステージにまたがる。
論文 参考訳(メタデータ) (2024-10-28T09:36:03Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - PointCloud-Text Matching: Benchmark Datasets and a Baseline [32.03710715584587]
PointCloud-Text Matchingは、指定されたポイントクラウドクエリやテキストクエリにマッチする正確なクロスモーダルインスタンスを見つけることを目的としている。
3D2T-SR, 3D2T-NR, 3D2T-QAという3つの新しいベンチマークデータセットを構築した。
これらの課題に対処するため,Robost PointCloud-Text Matching Method (RoMa) というPTMベースラインを提案する。
論文 参考訳(メタデータ) (2024-03-28T12:51:15Z) - General LLMs as Instructors for Domain-Specific LLMs: A Sequential Fusion Method to Integrate Extraction and Editing [12.017822691367705]
複雑な文脈からの知識をLarge Language Models (LLM) に統合するための逐次融合法を提案する。
本手法を用いて,質問応答におけるドメイン固有LCMの精度は71.7%(平均39.1%)に達した。
これらの知見は、FDoR-ULにおけるアプローチの有効性と柔軟性を、様々な領域で示している。
論文 参考訳(メタデータ) (2024-03-23T06:03:36Z) - Can Active Label Correction Improve LLM-based Modular AI Systems? [0.8057006406834466]
GPT-3.5アノテートした3つのデータセットのノイズと,その騒音を人間のフィードバックで分析する。
本稿では,トレーニングデータセットに3つの更新を反復的に適用する新しいALC3を提案する。
論文 参考訳(メタデータ) (2024-01-10T14:41:37Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - A Win-win Deal: Towards Sparse and Robust Pre-trained Language Models [53.87983344862402]
大規模言語モデル(PLM)はメモリフットプリントと計算の点で非効率である。
PLMはデータセットバイアスに頼り、アウト・オブ・ディストリビューション(OOD)データへの一般化に苦慮する傾向にある。
最近の研究では、スパースワークはパフォーマンスを損なうことなくスパースワークに置き換えることができることが示されている。
論文 参考訳(メタデータ) (2022-10-11T07:26:34Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Federated Learning for Channel Estimation in Conventional and
RIS-Assisted Massive MIMO [12.487990897680422]
機械学習によるチャネル推定では、通常、受信したパイロット信号を入力として、チャネルデータを出力として含むデータセットのモデルトレーニングが必要となる。
以前の研究では、モデルトレーニングは主に中央集権学習(CL)を通じて行われ、トレーニングデータセット全体がベースステーション(BS)のユーザから収集される。
チャネル推定のためのフェデレートラーニング(FL)フレームワークを提案する。BSに送信することなく、ユーザのローカルデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を設計する。
雑音および量子化モデル伝送の性能評価を行い,提案手法がCLの約16倍のオーバヘッドを提供することを示す。
論文 参考訳(メタデータ) (2020-08-25T06:51:18Z) - Multi-Domain Learning and Identity Mining for Vehicle Re-Identification [38.35753364518881]
本稿では,AI City Challenge 2020(AICITY20)におけるTrack2のソリューションについて紹介する。
Track2は、現実世界のデータと合成データの両方で車両を再識別するタスクである。
マルチモデルアンサンブルでは,mAPスコアの0.7322が達成され,コンペでは3位となった。
論文 参考訳(メタデータ) (2020-04-22T13:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。