論文の概要: SiamGPT: Quality-First Fine-Tuning for Stable Thai Text Generation
- arxiv url: http://arxiv.org/abs/2512.19455v1
- Date: Mon, 22 Dec 2025 15:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.797764
- Title: SiamGPT: Quality-First Fine-Tuning for Stable Thai Text Generation
- Title(参考訳): SiamGPT:タイの安定テキスト生成のための高品質なファインチューニング
- Authors: Thittipat Pairatsuppawat, Abhibhu Tachaapornchai, Paweekorn Kusolsomboon, Chutikan Chaiwong, Thodsaporn Chay-intr, Kobkrit Viriyayudhakorn, Nongnuch Ketui, Aslan B. Wong,
- Abstract要約: 本稿では,Qwen3-32Bに基づくオープンウェイトモデルSiamGPT-32Bについて述べる。
微調整パイプラインは、翻訳された高複雑英語の命令データと、タイ語対応のAutoIFフレームワークを組み合わせて、命令と言語制約を規定する。
- 参考スコア(独自算出の注目度): 0.3400857405460236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-weights large language models remain difficult to deploy for Thai due to unstable generation under complex instructions, despite strong English performance. To mitigate these limitations, We present SiamGPT-32B, an open-weights model based on Qwen3-32B, fine-tuned with a Quality-First strategy emphasizing curated supervision over data scale. The fine-tuning pipeline combines translated high-complexity English instruction data with a Thai-adapted AutoIF framework for instruction and linguistic constraints. Using supervised fine-tuning only, without continual pretraining or corpus expansion, SiamGPT-32B improves instruction adherence, multi-turn robustness, and linguistic stability. Evaluations on the SEA-HELM benchmark show that SiamGPT-32B achieves the strongest overall performance among similar-scale open-weights Thai models, with consistent gains in instruction following, multi-turn dialogue, and natural language understanding.
- Abstract(参考訳): タイでは、英語のパフォーマンスが強いにもかかわらず、複雑な命令の下で不安定な生成を行うため、大規模言語モデルは依然として展開が困難である。
これらの制限を緩和するために、我々はQwen3-32Bに基づくオープンウェイトモデルであるSiamGPT-32Bを紹介し、データスケールに対するキュレートされた監視を強調するQuality-First戦略を微調整する。
微調整パイプラインは、翻訳された高複雑英語の命令データと、タイ語対応のAutoIFフレームワークを組み合わせて、命令と言語制約を規定する。
SiamGPT-32Bは、教師付き微調整のみを使用し、継続事前訓練やコーパス拡張を行わず、命令の順守、多ターン堅牢性、言語安定性を改善している。
SEA-HELMベンチマークによる評価によると、SiamGPT-32Bは、同様のスケールのオープンウェイトタイのモデルの中で最も高い総合的な性能を達成しており、命令の追従、マルチターン対話、自然言語理解が一貫して向上している。
関連論文リスト
- TeluguST-46: A Benchmark Corpus and Comprehensive Evaluation for Telugu-English Speech Translation [5.06999188636889]
テルグ語は8千万人以上の人々が話しているが、この形態学的に豊かな言語に対する音声翻訳の研究はいまだに過小評価されている。
我々は,手作業によるCSTDコーパスデータ(30h/8h/8h列車/dev/テストスプリット)の46時間から高品質なTelugu- English音声翻訳ベンチマークを開発した。
IndicWhisper + IndicMTは,広範囲なTelugu固有のトレーニングデータによって最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-12-08T08:06:11Z) - MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task [7.247809853198223]
本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
本論文は, 長期音声のリアルタイム翻訳における特異な課題を, モジュラーカスケードシステムの構築によって解決するものである。
論文 参考訳(メタデータ) (2025-06-23T16:44:01Z) - KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [64.1520245849231]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。
ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。
事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文 参考訳(メタデータ) (2025-05-26T08:38:02Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - Unlocking the Potential of Multiple BERT Models for Bangla Question Answering in NCTB Textbooks [0.0]
教育環境におけるテキスト理解の評価は,学生のパフォーマンスの理解とカリキュラムの有効性の向上に不可欠である。
本研究では,国立カリキュラム・テキストブックボード(NCTB)の授業6-10用教科書から,Bangla節に基づく質問応答を自動的に評価する,最先端の言語モデルであるRoBERTa Base,Bangla-BERT,BERT Base-inの能力について検討した。
論文 参考訳(メタデータ) (2024-12-24T13:59:23Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Improving speech translation by fusing speech and text [24.31233927318388]
異なるモダリティである音声とテキストの相補的な長所を利用する。
textbfFuse-textbfSpeech-textbfText (textbfFST)を提案する。
論文 参考訳(メタデータ) (2023-05-23T13:13:48Z) - Data-Driven Adaptive Simultaneous Machine Translation [51.01779863078624]
適応型SimulMTのための新しい,効率的なトレーニング手法を提案する。
本手法は,翻訳の質やレイテンシという点で,全ての強靭なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-04-27T02:40:21Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Pronoun-Targeted Fine-tuning for NMT with Hybrid Losses [6.596002578395152]
我々は,訓練された機械翻訳モデルの微調整に使用する条件付き生成-識別ハイブリッド損失のクラスを導入する。
我々は、追加データを用いることなく、文レベルと文脈モデルの両方のモデル性能を改善する。
文レベルモデルではWMT14とIWSLT13の両テストセットで0.5BLEUの改善が見られた。
我々の文脈モデルは WMT14 De-En テストセットにおいて 31.81 から 32 BLEU に改善され、IWSLT13 De-En では 32.10 から 33.13 に改善された。
論文 参考訳(メタデータ) (2020-10-15T10:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。