論文の概要: Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO
- arxiv url: http://arxiv.org/abs/2510.01616v1
- Date: Thu, 02 Oct 2025 02:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.958972
- Title: Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO
- Title(参考訳): シングルコンシューマGPUを用いたロバストな中国のLLaMA-1Bの効率的なトレーニング:連続事前学習, SFT, DPO
- Authors: Yu-Cheng Chih, Ming-Tao Duan, Yong-Hao Hou,
- Abstract要約: 小型言語モデル(SLM)は、コスト効率、オンデバイス、レイテンシに敏感なAIアプリケーションを実現する。
しかし、従来の中国(TC)への展開は、トークンレベルの不安定さによって妨げられている。
Llama-3.2-1B-Instructの3段階安定化パイプラインであるPureTC-1Bを作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Language Models (SLMs) enable cost-effective, on-device and latency-sensitive AI applications, yet their deployment in Traditional Chinese (TC) remains hindered by token-level instability - models unpredictably emit non-TC characters or code-switch into other languages. We address this practical reliability gap by creating PureTC-1B, a three-stage stabilization pipeline for Llama-3.2-1B-Instruct (an open-weight, instruction-tuned model released by Meta) using parameter-efficient LoRA adapters. Our method combines Continual Pre-Training (CPT) on TC-centric corpora, Supervised Fine-Tuning (SFT) with instruction data, and Direct Preference Optimization (DPO) using TC-adherence preferences to improve monolingual robustness without full-model retraining. On a benchmark designed to simulate real-world usage, PureTC-1B achieves a 51.3% relative reduction (micro-average) in non-TC output tokens versus the base model. On a Named Entity Translation (NET) task, PureTC-1B further reduces incorrect-language tokens by 77.2% relative to Llama-3B and 57.2% relative to Qwen-1.5B, indicating that robust TC adherence is attainable even at the 1B scale. The pipeline is reproducible, adapter-only, and hardware-friendly, offering practitioners a practical recipe to enhance language stability for TC and potentially other non-English languages.
- Abstract(参考訳): 小型言語モデル(SLM)は、コスト効率、オンデバイス、レイテンシに敏感なAIアプリケーションを実現するが、従来の中国語(TC)への展開は、トークンレベルの不安定さによって妨げられている。
パラメータ効率のよいLoRAアダプタを用いて,Llama-3.2-1B-Instruct(Metaがリリースしたオープンウェイトな命令調整モデル)の3段階安定化パイプラインであるPureTC-1Bを作成した。
提案手法は,TC中心コーパス上でのCPT(Continuous Pre-Training)と命令データとの併用,およびTC-Adherence Presherence preferencesを用いたDPO(Direct Preference Optimization)を併用することで,フルモデル再構成なしでモノリンガルロバスト性を改善する。
実世界での使用をシミュレートするために設計されたベンチマークでは、PureTC-1Bはベースモデルに対して非TC出力トークンにおいて51.3%の相対還元(マイクロ平均)を達成した。
Named Entity Translation (NET) タスクでは、PureTC-1BはLlama-3Bに対して77.2%、Qwen-1.5Bに対して57.2%の不正なトークンを削減し、1Bスケールでも堅牢なTCの付着が達成可能であることを示す。
パイプラインは再現性があり、アダプタのみであり、ハードウェアフレンドリーであり、実践者はTCや他の非英語言語の言語安定性を高めるための実践的なレシピを提供する。
関連論文リスト
- SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - DEPT: Decoupled Embeddings for Pre-training Language Models [16.84502158672086]
本稿では,通信効率の高い事前学習フレームワークDEPTを提案する。
本手法はトランス体から埋め込みを分離し,同時に複数のデータソース上で後者をトレーニングする。
我々は,10億規模モデルの最初の語彙に依存しないフェデレーション事前学習を通じて,DEPTのポテンシャルを実証する。
論文 参考訳(メタデータ) (2024-10-07T13:24:24Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。