論文の概要: Mixture of Small and Large Models for Chinese Spelling Check
- arxiv url: http://arxiv.org/abs/2506.06887v1
- Date: Sat, 07 Jun 2025 18:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.547643
- Title: Mixture of Small and Large Models for Chinese Spelling Check
- Title(参考訳): 中国語スペルチェックのための小・大モデルの混合
- Authors: Ziheng Qiao, Houquan Zhou, Zhenghua Li,
- Abstract要約: 大規模言語モデル (LLM) の時代、中国語のスペルチェック (CSC) タスクは様々な LLM 手法が開発されてきた。
高品質なドメインデータに依存した細調整のBERTベースのモデルは優れた性能を示すが、編集パターンの過度な適合に悩まされている。
本稿では,ビーム探索復号フェーズにおける小型モデルとLCMの確率分布を効果的に組み合わせた動的混合手法を提案する。
- 参考スコア(独自算出の注目度): 10.634101727583127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of large language models (LLMs), the Chinese Spelling Check (CSC) task has seen various LLM methods developed, yet their performance remains unsatisfactory. In contrast, fine-tuned BERT-based models, relying on high-quality in-domain data, show excellent performance but suffer from edit pattern overfitting. This paper proposes a novel dynamic mixture approach that effectively combines the probability distributions of small models and LLMs during the beam search decoding phase, achieving a balanced enhancement of precise corrections from small models and the fluency of LLMs. This approach also eliminates the need for fine-tuning LLMs, saving significant time and resources, and facilitating domain adaptation. Comprehensive experiments demonstrate that our mixture approach significantly boosts error correction capabilities, achieving state-of-the-art results across multiple datasets. Our code is available at https://github.com/zhqiao-nlp/MSLLM.
- Abstract(参考訳): 大規模言語モデル (LLMs) の時代には、中国語のスペルチェック (CSC) タスクは様々な LLM メソッドが開発されてきたが、その性能は相変わらず不満足である。
対照的に、高品質なドメインデータに依存した細調整のBERTベースのモデルは優れた性能を示すが、編集パターンのオーバーフィットに悩まされている。
本稿では,ビーム探索復号フェーズにおける小モデルとLLMの確率分布を効果的に組み合わせ,小モデルからの精度補正とLLMの流速のバランスよく向上する,新しい動的混合手法を提案する。
このアプローチはまた、微調整のLLMの必要性を排除し、かなりの時間とリソースを節約し、ドメイン適応を容易にする。
総合的な実験により、我々の混合アプローチはエラー訂正能力を著しく向上させ、複数のデータセットで最先端の結果を得ることを示した。
私たちのコードはhttps://github.com/zhqiao-nlp/MSLLM.comで公開されています。
関連論文リスト
- EULER: Enhancing the Reasoning Ability of Large Language Models through Error-Induced Learning [66.82956219777763]
大きな言語モデル(LLM)は強力な推論能力を示している。
Error-IndUced LEaRning (EULER) モデルは、高品質なソリューションエラーを生成するエラー露光モデルを開発することを目的としている。
論文 参考訳(メタデータ) (2025-05-28T08:57:03Z) - Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。
LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。
TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-27T02:18:59Z) - Large Language Models are Few-shot Multivariate Time Series Classifiers [23.045734479292356]
大規模言語モデル (LLM) は時系列解析に広く応用されている。
しかし、数発の分類(すなわち重要な訓練シナリオ)におけるそれらの実用性は過小評価されている。
データ不足を克服するために,LLMの学習済み知識を幅広く活用することを目的としている。
論文 参考訳(メタデータ) (2025-01-30T03:59:59Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition
and Adaptive Quantization [9.517540904818986]
本稿では、不均一GPUクラスタ上でのLCM機能効率を改善するために、適応モデル量子化と位相認識分割を提案する。
11の異なるクラスタでのプロダクション推論ワークロードの実験は、LLM-PQが推論のスループットを最大2.88倍(2.26倍)向上させることを示した。
論文 参考訳(メタデータ) (2024-03-02T08:40:07Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。