論文の概要: Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO
- arxiv url: http://arxiv.org/abs/2510.01616v1
- Date: Thu, 02 Oct 2025 02:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.958972
- Title: Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO
- Title(参考訳): シングルコンシューマGPUを用いたロバストな中国のLLaMA-1Bの効率的なトレーニング:連続事前学習, SFT, DPO
- Authors: Yu-Cheng Chih, Ming-Tao Duan, Yong-Hao Hou,
- Abstract要約: 小型言語モデル(SLM)は、コスト効率、オンデバイス、レイテンシに敏感なAIアプリケーションを実現する。
しかし、従来の中国(TC)への展開は、トークンレベルの不安定さによって妨げられている。
Llama-3.2-1B-Instructの3段階安定化パイプラインであるPureTC-1Bを作成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Language Models (SLMs) enable cost-effective, on-device and latency-sensitive AI applications, yet their deployment in Traditional Chinese (TC) remains hindered by token-level instability - models unpredictably emit non-TC characters or code-switch into other languages. We address this practical reliability gap by creating PureTC-1B, a three-stage stabilization pipeline for Llama-3.2-1B-Instruct (an open-weight, instruction-tuned model released by Meta) using parameter-efficient LoRA adapters. Our method combines Continual Pre-Training (CPT) on TC-centric corpora, Supervised Fine-Tuning (SFT) with instruction data, and Direct Preference Optimization (DPO) using TC-adherence preferences to improve monolingual robustness without full-model retraining. On a benchmark designed to simulate real-world usage, PureTC-1B achieves a 51.3% relative reduction (micro-average) in non-TC output tokens versus the base model. On a Named Entity Translation (NET) task, PureTC-1B further reduces incorrect-language tokens by 77.2% relative to Llama-3B and 57.2% relative to Qwen-1.5B, indicating that robust TC adherence is attainable even at the 1B scale. The pipeline is reproducible, adapter-only, and hardware-friendly, offering practitioners a practical recipe to enhance language stability for TC and potentially other non-English languages.
- Abstract(参考訳): 小型言語モデル(SLM)は、コスト効率、オンデバイス、レイテンシに敏感なAIアプリケーションを実現するが、従来の中国語(TC)への展開は、トークンレベルの不安定さによって妨げられている。
パラメータ効率のよいLoRAアダプタを用いて,Llama-3.2-1B-Instruct(Metaがリリースしたオープンウェイトな命令調整モデル)の3段階安定化パイプラインであるPureTC-1Bを作成した。
提案手法は,TC中心コーパス上でのCPT(Continuous Pre-Training)と命令データとの併用,およびTC-Adherence Presherence preferencesを用いたDPO(Direct Preference Optimization)を併用することで,フルモデル再構成なしでモノリンガルロバスト性を改善する。
実世界での使用をシミュレートするために設計されたベンチマークでは、PureTC-1Bはベースモデルに対して非TC出力トークンにおいて51.3%の相対還元(マイクロ平均)を達成した。
Named Entity Translation (NET) タスクでは、PureTC-1BはLlama-3Bに対して77.2%、Qwen-1.5Bに対して57.2%の不正なトークンを削減し、1Bスケールでも堅牢なTCの付着が達成可能であることを示す。
パイプラインは再現性があり、アダプタのみであり、ハードウェアフレンドリーであり、実践者はTCや他の非英語言語の言語安定性を高めるための実践的なレシピを提供する。
関連論文リスト
- How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Pretraining with Token-Level Adaptive Latent Chain-of-Thought [44.19871205975474]
パラメータの増加とトレーニングデータによる大規模言語モデルのスケーリングは、高品質コーパスの制限と通信コストの増大によって、ますます制限されている。
この研究は、潜在チェーン・オブ・ソート(CoT)を事前学習に内在させることにより、パラメータを拡張せずにトーケン毎の計算量を増やすという代替軸を探求する。
本稿では,各トークンを出力する前に可変長遅延CoT軌道を生成するToken-Level Adaptive Latent CoT(Adaptive Latent CoT)による事前学習を提案する。
Llamaアーキテクチャによる実験によると、適応潜在CoTは、訓練の少ないFLでも、言語モデリングの難易度と幅広い下流の精度を一貫して改善する。
論文 参考訳(メタデータ) (2026-02-09T02:49:15Z) - Teaching Language Models to Reason with Tools [73.21700643314917]
emphHint-Engineeringは、推論経路内の最適点に様々なヒントを戦略的に注入する新しいデータ合成戦略である。
CoRTは効率を大幅に向上させ、32Bモデルのトークン使用量を約30%削減し、1.5Bモデルのトークン使用量を50%削減した。
論文 参考訳(メタデータ) (2025-10-23T08:41:44Z) - SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - DEPT: Decoupled Embeddings for Pre-training Language Models [16.84502158672086]
本稿では,通信効率の高い事前学習フレームワークDEPTを提案する。
本手法はトランス体から埋め込みを分離し,同時に複数のデータソース上で後者をトレーニングする。
我々は,10億規模モデルの最初の語彙に依存しないフェデレーション事前学習を通じて,DEPTのポテンシャルを実証する。
論文 参考訳(メタデータ) (2024-10-07T13:24:24Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z) - Recipes for Adapting Pre-trained Monolingual and Multilingual Models to
Machine Translation [50.0258495437314]
機械翻訳(MT)における事前学習モデルの微調整において、凍結パラメータの利点と欠点と新しいパラメータの追加について検討する。
BARTでは、モデルパラメータの大部分を凍結し、追加の位置埋め込みを追加することで、最高のパフォーマンスを得ることができます。
mBARTでは、ほとんどの言語ペアがエンコーダで、ほとんどのデコーダはフリーズして、素早い微調整のパフォーマンスにマッチするか、向上します。
論文 参考訳(メタデータ) (2020-04-30T16:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。