論文の概要: Large-scale Language Model Rescoring on Long-form Data
- arxiv url: http://arxiv.org/abs/2306.08133v1
- Date: Tue, 13 Jun 2023 20:54:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 22:52:46.770704
- Title: Large-scale Language Model Rescoring on Long-form Data
- Title(参考訳): 長期データに基づく大規模言語モデル再構成
- Authors: Tongzhou Chen, Cyril Allauzen, Yinghui Huang, Daniel Park, David
Rybach, W. Ronny Huang, Rodrigo Cabrera, Kartik Audhkhasi, Bhuvana
Ramabhadran, Pedro J. Moreno, Michael Riley
- Abstract要約: 大規模言語モデル(LLM)がYouTubeビデオの自動音声認識(ASR)に与える影響について検討した。
我々は、米国英語(en-us)およびコード変更されたインド英語(en-in)長期英語(en-in)テストセット上で、ワードエラーイート(WER)を最大8%削減することを示した。
- 参考スコア(独自算出の注目度): 35.20965250082011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the impact of Large-scale Language Models (LLM) on
Automated Speech Recognition (ASR) of YouTube videos, which we use as a source
for long-form ASR. We demonstrate up to 8\% relative reduction in Word Error
Eate (WER) on US English (en-us) and code-switched Indian English (en-in)
long-form ASR test sets and a reduction of up to 30\% relative on Salient Term
Error Rate (STER) over a strong first-pass baseline that uses a maximum-entropy
based language model. Improved lattice processing that results in a lattice
with a proper (non-tree) digraph topology and carrying context from the 1-best
hypothesis of the previous segment(s) results in significant wins in rescoring
with LLMs. We also find that the gains in performance from the combination of
LLMs trained on vast quantities of available data (such as C4) and conventional
neural LMs is additive and significantly outperforms a strong first-pass
baseline with a maximum entropy LM.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)がYouTubeビデオの自動音声認識(ASR)に与える影響について検討する。
米国英語(en-us)およびコードスイッチインド英語(en-in)の長文asrテストセットにおける単語エラーイート(wer)の最大8-%の相対的削減と,最大エントロピーベースの言語モデルを用いた強固なファーストパスベースライン上でのsalient term error rate(ster)に対する最大30-%の削減を実証した。
適切な(木を含まない)グラフトポロジーを持つ格子と、前のセグメントの1-best仮説からのコンテキストを持つ格子処理の改善により、LLMによる再描画において大きな勝利をもたらす。
また,大量の利用可能なデータ(例えば C4 など)を学習した LLM と従来のニューラル LM の併用による性能向上は付加的であり,最大エントロピー LM で強いファーストパスベースラインを著しく上回ることがわかった。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Rephrasing natural text data with different languages and quality levels for Large Language Model pre-training [12.29061850090405]
既存の結果をC4で複製し、最適化されたリフレーズパイプラインで拡張することで、以前の作業の上に構築します。
私たちのパイプラインは、単言語と多言語の両方のセットアップにおける標準評価ベンチマークのパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2024-10-28T07:30:05Z) - How Good are LLMs at Relation Extraction under Low-Resource Scenario? Comprehensive Evaluation [7.151108031568037]
本稿では,3地域(中央アジア,東南アジア,中東)の低リソース言語10言語(LRL)における低リソース関係抽出データセットを構築する。
コーパスは、有効な多言語機械翻訳を使用して、オリジナルの公開可能な英語REデータセット(NYT10、FewRel、CrossRE)を翻訳することで構築される。
次に、言語パープレキシティ(PPL)を使用して、翻訳されたデータセットから低品質データをフィルタリングする。
論文 参考訳(メタデータ) (2024-06-17T03:02:04Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。