論文の概要: Detecting Unintended Memorization in Language-Model-Fused ASR
- arxiv url: http://arxiv.org/abs/2204.09606v1
- Date: Wed, 20 Apr 2022 16:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:52:29.400330
- Title: Detecting Unintended Memorization in Language-Model-Fused ASR
- Title(参考訳): 言語モデル融合asrにおける意図しない記憶の検出
- Authors: W. Ronny Huang, Steve Chien, Om Thakkar, Rajiv Mathews
- Abstract要約: LMトレーニングデータからランダムテキストシーケンス(カナリアと呼ぶ)の記憶を検出するためのフレームワークを提案する。
In a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detected memorization of canary from the LM training data of 300M example。
また,プライバシ保護を動機として,拡張段階のLMトレーニングを実施すれば,そのような記憶が大幅に減少することを示す。
- 参考スコア(独自算出の注目度): 10.079200692649462
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end (E2E) models are often being accompanied by language models (LMs)
via shallow fusion for boosting their overall quality as well as recognition of
rare words. At the same time, several prior works show that LMs are susceptible
to unintentionally memorizing rare or unique sequences in the training data. In
this work, we design a framework for detecting memorization of random textual
sequences (which we call canaries) in the LM training data when one has only
black-box (query) access to LM-fused speech recognizer, as opposed to direct
access to the LM. On a production-grade Conformer RNN-T E2E model fused with a
Transformer LM, we show that detecting memorization of singly-occurring
canaries from the LM training data of 300M examples is possible. Motivated to
protect privacy, we also show that such memorization gets significantly reduced
by per-example gradient-clipped LM training without compromising overall
quality.
- Abstract(参考訳): エンド・ツー・エンド(E2E)モデルは、しばしば浅い融合を通じて言語モデル(LM)を伴い、その全体的な品質を高め、稀な単語の認識を促進する。
同時に、いくつかの先行研究により、LMはトレーニングデータに稀な、またはユニークなシーケンスを意図せずに記憶する可能性があることが示されている。
本研究では,lm への直接アクセスとは対照的に,ブラックボックス (クエリ) が lm-fused speech recognitionr にのみアクセスした場合に,lm トレーニングデータ中のランダムテキストシーケンス (カナリアと呼ぶ) の記憶を検出するフレームワークを設計する。
変圧器lmと融合した製造グレードのコンフォーメータrnn-t e2eモデルにおいて,300m例のlmトレーニングデータから,単発カナリアの暗記を検出可能であることを示す。
また, プライバシー保護の動機として, 全体的な品質を損なうことなく, グラデーション単位のLMトレーニングにより, 記憶度が大幅に低下することを示す。
関連論文リスト
- Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models [10.783764497590473]
トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T11:30:39Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - Preference-grounded Token-level Guidance for Language Model Fine-tuning [105.88789610320426]
好みのある言語モデルを調整することは、自然言語生成において重要な問題である。
LMトレーニングでは、教師付きデータの量に基づいて、学習指導を利用する2つの「ミニマリスト*学習目標」を示す。
実験において,本手法は2つの異なるLMタスクに対して競合的に動作する。
論文 参考訳(メタデータ) (2023-06-01T07:00:07Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。