論文の概要: SmolKalam: Ensemble Quality-Filtered Translation at Scale for High Quality Arabic Post-Training Data
- arxiv url: http://arxiv.org/abs/2511.18411v1
- Date: Sun, 23 Nov 2025 11:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.827018
- Title: SmolKalam: Ensemble Quality-Filtered Translation at Scale for High Quality Arabic Post-Training Data
- Title(参考訳): SmolKalam: 高品質のアラビア語学習後データのための大規模翻訳
- Authors: Sultan Alrashed, Chadi Helwe, Francesco Orabona,
- Abstract要約: マルチモデルアンサンブル変換パイプラインを用いたSmoltalk2の翻訳であるSmolKalamを紹介する。
本研究では,従来のデコーダのみのモデルに対するアブレーションによる効率的な翻訳手法について検討する。
- 参考スコア(独自算出の注目度): 12.764853801871984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although the community has tackled the acquisition of high-quality Arabic pretraining data, we still lack large-scale, multi-turn Arabic datasets that include reasoning and tool calling. Naive translation can work at the pretraining scale, but post-training demands much higher quality, which requires a stricter approach to dataset curation. In this work, we introduce SmolKalam, a translation of Smoltalk2 that uses a multi-model ensemble translation pipeline, applies quality filtering, and examines effective translation techniques for traditional decoder-only models through ablations.
- Abstract(参考訳): コミュニティは高品質なアラビア事前訓練データの取得に取り組みましたが、推論やツール呼び出しを含む大規模で多ターンのアラビアデータセットはいまだに欠如しています。
ナイーブ翻訳は事前トレーニングのスケールで機能するが、トレーニング後の処理では、データセットのキュレーションに対してより厳格なアプローチを必要とする、はるかに高い品質が要求される。
本研究では,マルチモデルアンサンブル変換パイプラインを用いたSmoltalk2の翻訳手法であるSmolKalamについて述べる。
関連論文リスト
- Iterative Layer Pruning for Efficient Translation Inference [3.802773461517422]
機械翻訳学会(WMT 2025)におけるモデル圧縮トラックへの提出について紹介する。
実験では, 層重み解析によって導かれる反復層プルーニングについて検討した。
提案手法は,ベースラインモデルの翻訳品質を維持しつつ,モデルサイズと推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2025-10-26T17:26:14Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.3750624267664155]
古典アラビア語は、アラブ文化、哲学、科学文学の黄金時代を包含する重要な時代である。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは、66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Using Machine Translation to Augment Multilingual Classification [0.0]
複数の言語にまたがる分類課題に対して,機械翻訳を用いて多言語モデルを微調整する効果について検討する。
翻訳されたデータは、多言語分類器をチューニングするのに十分な品質であり、この新規な損失技術は、それなしでチューニングされたモデルよりも幾らか改善できることを示す。
論文 参考訳(メタデータ) (2024-05-09T00:31:59Z) - Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。