論文の概要: Memorization Inheritance in Sequence-Level Knowledge Distillation for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2502.01491v1
- Date: Mon, 03 Feb 2025 16:26:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:18.293695
- Title: Memorization Inheritance in Sequence-Level Knowledge Distillation for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のためのシーケンスレベル知識蒸留における記憶の継承
- Authors: Verna Dankers, Vikas Raunak,
- Abstract要約: 我々は,教師ニューラル機械翻訳(NMT)モデルにおけるインスタンスレベルの記憶が,シーケンスレベルの知識蒸留(SeqKD)における学生モデルによってどのように継承されるかを検討する。
トレーニングデータを直接は見ていないが,学生はベースラインモデル以上に記憶し,幻覚率の向上を示した。
本稿では,記憶と幻覚を減らすためにSeqKDに介入するAdaptive-SeqKDというSeqKDの修正を提案する。
- 参考スコア(独自算出の注目度): 17.53274191832449
- License:
- Abstract: In this work, we explore how instance-level memorization in the teacher Neural Machine Translation (NMT) model gets inherited by the student model in sequence-level knowledge distillation (SeqKD). We find that despite not directly seeing the original training data, students memorize more than baseline models (models of the same size, trained on the original data) -- 3.4% for exact matches and 57% for extractive memorization -- and show increased hallucination rates. Further, under this SeqKD setting, we also characterize how students behave on specific training data subgroups, such as subgroups with low quality and specific counterfactual memorization (CM) scores, and find that students exhibit amplified denoising on low-quality subgroups. Finally, we propose a modification to SeqKD named Adaptive-SeqKD, which intervenes in SeqKD to reduce memorization and hallucinations. Overall, we recommend caution when applying SeqKD: students inherit both their teachers' superior performance and their fault modes, thereby requiring active monitoring.
- Abstract(参考訳): 本研究では,教師ニューラル機械翻訳(NMT)モデルにおけるインスタンスレベルの記憶が,シーケンスレベルの知識蒸留(SeqKD)において学生モデルによってどのように継承されるかを検討する。
元のトレーニングデータを直接見ていないにも関わらず、学生はベースラインモデル(同じサイズで、元のデータに基づいてトレーニングされたモデル)よりも -- 正確なマッチが3.4%、抽出記憶が57% -- を記憶し、幻覚率を高めている。
さらに、このSeqKD設定の下では、低品質で具体的な反事実記憶(CM)スコアを持つサブグループなどの特定の訓練データサブグループに対して、学生がどのように振る舞うかを特徴付けるとともに、低品質なサブグループに対して、学生の認知度が増幅されることを見出した。
最後に、記憶と幻覚を減らすためにSeqKDに介入するAdaptive-SeqKDというSeqKDの修正を提案する。
学生は教師の優れたパフォーマンスと障害モードの両方を継承し、アクティブなモニタリングを必要とする。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - PromptKD: Distilling Student-Friendly Knowledge for Generative Language Models via Prompt Tuning [30.70974942397732]
本稿では,学生に親しみやすい知識を伝達する生成言語モデルを実現するために,PromptKDを提案する。
命令追従データセットの実験は、PromptKDが最先端のパフォーマンスを達成することを示す。
さらに分析したところ、学生に親しみやすい知識の蒸留は、トレーニングプロセス全体を通して効果的に露光バイアスを軽減することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T09:10:08Z) - Multistage Collaborative Knowledge Distillation from a Large Language Model for Semi-Supervised Sequence Generation [60.657065293413716]
本研究は半教師付きシーケンス生成タスクについて検討し,いくつかのラベル付き例ではモデルを微調整するには不十分である。
数発の試薬で抽出した学生モデルは、教師よりも一般的に一般化できるという発見を提示する。
論文 参考訳(メタデータ) (2023-11-15T01:28:28Z) - On-Policy Distillation of Language Models: Learning from Self-Generated
Mistakes [44.97759066341107]
一般知識蒸留(GKD)は、教師からのフィードバックを活用して、学生を自己生成出力シーケンスで訓練する。
本稿では,自動回帰言語モデルの要約,翻訳,算術的推論におけるGKDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-23T17:56:26Z) - Finding Memo: Extractive Memorization in Constrained Sequence Generation
Tasks [12.478605921259403]
記憶化は、ニューラルネットワーク翻訳(NMT)のようないくつかの制約付き自然言語生成(NLG)タスクに挑戦する。
制約付きシーケンス生成タスクにおける抽出記憶のための,新しい安価なアルゴリズムを提案する。
我々は,同じモデルから記憶されたサンプルの非記憶翻訳を抽出する簡単なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-24T03:01:52Z) - An Ensemble Teacher-Student Learning Approach with Poisson Sub-sampling
to Differential Privacy Preserving Speech Recognition [51.20130423303659]
本稿では,Poissonサブサンプルを用いたアンサンブル学習フレームワークを提案する。
DP下での強化を通じて、トレーニングデータから派生した学生モデルは、プライバシ保護なしでトレーニングされたモデルからほとんどモデル劣化を受けない。
提案手法は,<i>Poisson sub-sampling</i>によるプライバシ予算の増幅を行い,同じレベルのプライバシ予算を達成するためにノイズの少ないターゲット予測モデルをトレーニングする。
論文 参考訳(メタデータ) (2022-10-12T16:34:08Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Stochastic Precision Ensemble: Self-Knowledge Distillation for Quantized
Deep Neural Networks [27.533162215182422]
エッジデバイスへの展開のために、ディープニューラルネットワーク(QDNN)の量子化が活発に研究されている。
近年の研究では、量子化されたネットワークの性能を向上させるために知識蒸留(KD)法が採用されている。
本研究では,QDNN(SPEQ)のためのアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-09-30T08:38:37Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。