Fugu-MT 論文翻訳(概要): Accurate Knowledge Distillation with n-best Reranking

論文の概要: Accurate Knowledge Distillation with n-best Reranking

arxiv url: http://arxiv.org/abs/2305.12057v3
Date: Sun, 21 Apr 2024 22:19:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 01:22:08.966667
Title: Accurate Knowledge Distillation with n-best Reranking
Title（参考訳）: n-best再分類による正確な知識蒸留
Authors: Hendra Setiawan,
Abstract要約: 我々は,n-best re rankを利用してシーケンスレベル知識蒸留を強化することを提案する(Kim and Rush, 2016)。我々は、様々な帰納バイアス、客観的関数またはアーキテクチャを持つ多種多様なモデルの集合を活用し、公開可能ないくつかの大きな言語モデルを含む、ラベルとして最高の仮説を選択する。その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。
参考スコア（独自算出の注目度）: 2.9526110883017433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose utilizing n-best reranking to enhance Sequence-Level Knowledge Distillation (Kim and Rush, 2016) where we extract pseudo-labels for student model's training data from top n-best hypotheses and leverage a diverse set of models with different inductive biases, objective functions or architectures, including some publicly-available large language models, to pick the highest-quality hypotheses as labels. The effectiveness of our proposal is validated through experiments on the WMT'21 German-English and Chinese-English translation tasks. Our results demonstrate that utilizing pseudo-labels generated by our n-best reranker leads to a significantly more accurate student model. In fact, our best student model achieves comparable accuracy to a large translation model from (Tran et al., 2021) with 4.7 billion parameters, while having two orders of magnitude fewer parameters.
Abstract（参考訳）: 我々は,n-bestリグレードを活用して,n-best仮説から学生モデルのトレーニングデータのための擬似ラベルを抽出し,様々な帰納的バイアス,目的関数,アーキテクチャなど,いくつかの公開可能な大規模言語モデルを含む多種多様なモデルの集合を利用して,高品質な仮説をラベルとして選択する,シーケンス・レベル知識蒸留(Kim and Rush, 2016)を強化する。提案手法の有効性は、WMT'21ドイツ語と中国語の翻訳タスクの実験を通して検証される。その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。実際、我々の最良の学生モデルは、470億のパラメータを持つ(Tran et al , 2021)大規模な翻訳モデルに匹敵する精度を達成します。

関連論文リスト

FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition [12.125413756152833]
教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。 FineWeb-Edu 上に構築した手法では,回帰モデルを用いて NER 関連パスを識別し,多言語 LLM でアノテートする。実験の結果, 回帰モデルは84F1以上を達成でき, また, FiNERwebでトレーニングしたモデルでは, ゼロショット転送設定で同等あるいは改善された性能が得られることがわかった。
論文参考訳（メタデータ） (2025-12-15T20:36:39Z)
Logits-Based Finetuning [48.18151583153572]
本稿では,教師付き学習と知識蒸留の強みを統合したロジットに基づく微調整フレームワークを提案する。提案手法は,教師のロジットと地上の真理ラベルを組み合わせ,正確性と言語的多様性を両立させることにより,充実した訓練目標を構築する。
論文参考訳（メタデータ） (2025-05-30T10:57:09Z)
Matryoshka Model Learning for Improved Elastic Student Models [62.154536258259384]
MatTAは、新しいTeacher-TA-Studentレシピを使用して、複数の正確な学生モデルをトレーニングするためのフレームワークである。本手法はパブリックモデルであるGPT-2 Medium上で実証し,SAT Mathで24%,LAMBADAベンチマークで10%以上の相対的な改善を実現した。
論文参考訳（メタデータ） (2025-05-29T10:54:58Z)
Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。 GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文参考訳（メタデータ） (2025-02-18T23:38:21Z)
Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文参考訳（メタデータ） (2024-11-05T12:26:25Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators [45.49880507108965]
GenTranslate"は、N-bestリストの多種多様な翻訳バージョンからより良い結果を生成するために、大きな言語モデルの上に構築されている。我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、N-best候補にリッチな情報を統合することができる。
論文参考訳（メタデータ） (2024-02-10T07:20:49Z)
Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。 UPETは性能と効率の面で大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-10-19T02:18:29Z)
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models [87.7086269902562]
サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であることを示している。我々は,新しいモデルを設計し,評価する際のこれらの要因を検討するために,トークンフリーな手法の今後の取り組みを奨励する。
論文参考訳（メタデータ） (2022-10-13T15:47:09Z)
A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文参考訳（メタデータ） (2022-02-08T19:18:49Z)
An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文参考訳（メタデータ） (2022-01-23T22:00:54Z)
Few-shot Instruction Prompts for Pretrained Language Models to Detect Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文参考訳（メタデータ） (2021-12-15T04:19:52Z)
Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。 Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文参考訳（メタデータ） (2021-06-01T22:33:53Z)
A Systematic Evaluation of Transfer Learning and Pseudo-labeling with BERT-based Ranking Models [2.0498977512661267]
BERTに基づく5つの英語データセット間のニューラルランキングモデルの転送性を評価する。各コレクションには膨大な数のクエリがあり、フルショット評価モードを可能にします。擬似ラベルのトレーニングは、転送学習と比較して、競争力や優れたモデルを生み出すことができる。
論文参考訳（メタデータ） (2021-03-04T21:08:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。