論文の概要: No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data
- arxiv url: http://arxiv.org/abs/2602.04442v1
- Date: Wed, 04 Feb 2026 11:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.498257
- Title: No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data
- Title(参考訳): Bashkir, Kazakh, Kyrgyz, Tatar, Chuvashへの翻訳システム
- Authors: Dmitry Karpov,
- Abstract要約: ロシア・バシュキル、ロシア・カザフ、ロシア・キルギス、イングリッシュ・タタール、イングリッシュ・チュヴァシュの5つのテュルク語対の機械翻訳について検討する。
合成データにLoRAを用いた微調整 nllb-200-distilled-600M はカザフ語では chrF++ 49.71 、バシュキル語では 46.94 を達成した。
DeepSeek-V3.2で類似のサンプルを検索すると、ChuvashではchrF++ 39.47が達成された。
- 参考スコア(独自算出の注目度): 0.36919411375256245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
- Abstract(参考訳): ロシア・バシュキル、ロシア・カザフ、ロシア・キルギス、イングリッシュ・タタール、イングリッシュ・チュヴァシュの5つのテュルク語対の機械翻訳について検討する。
合成データにLoRAを用いた微調整 nllb-200-distilled-600M はカザフ語では chrF++ 49.71 、バシュキル語では 46.94 を達成した。
DeepSeek-V3.2で類似のサンプルを検索すると、ChuvashではchrF++ 39.47が達成された。
タタールではゼロショットまたは検索ベースのアプローチがchrF++ 41.6を達成し、キルギスではゼロショットアプローチが45.6に達した。
データセットと得られたウェイトを解放します。
関連論文リスト
- KyrgyzBERT: A Compact, Efficient Language Model for Kyrgyz NLP [0.0]
KyrgyzBERTは、KyrgyzのためのモノリンガルBERTベースの言語モデルである。
このモデルは35.9Mパラメータを持ち、言語の形態的構造のために設計されたカスタムトークンを使用する。
Kyrgyz-sst2は、Stanford Sentiment Treebankを翻訳し、手動で完全なテストセットを注釈付けすることで構築された感情分析ベンチマークである。
論文 参考訳(メタデータ) (2025-11-25T11:05:53Z) - The first open machine translation system for the Chechen language [0.0]
脆弱なチェチェン語とロシア語を翻訳する最初のオープンソースモデルを紹介します。
我々は,新たな言語を多言語翻訳のための大規模言語モデルシステムNLLB-200に組み込むための微調整機能について検討する。
論文 参考訳(メタデータ) (2025-07-16T23:07:07Z) - Sherkala-Chat: Building a State-of-the-Art LLM for Kazakh in a Moderately Resourced Setting [72.49939766691763]
Sherkala-Chat (8B) は、カザフ語話者向けに設計された命令調整されたオープン生成型大言語モデル(LLM)である。
LLaMA-3.1-8Bモデルに適応したシェルカラ・チャット (8B) はカザフ語、英語、ロシア語、トルコ語で45.3Bのトークンで訓練されている。
論文 参考訳(メタデータ) (2025-03-03T13:05:48Z) - Development of a Large-scale Dataset of Chest Computed Tomography Reports in Japanese and a High-performance Finding Classification Model [4.989937142229914]
大規模言語モデルの最近の進歩は、高品質な多言語医療データセットの必要性を強調している。
我が国はCTスキャナの展開と利用を世界中にリードしているが,大規模な放射線学データセットの欠如により,医用画像解析のための特化言語モデルの開発が妨げられている。
われわれは,CT-BERT-JPNを「tohoku-nlp/bert-base-japanese-v3」アーキテクチャで構築した。
論文 参考訳(メタデータ) (2024-12-20T13:59:11Z) - Qwen2 Technical Report [141.0766756297144]
本稿では,我々の大規模言語モデルと大規模マルチモーダルモデルへの最新の追加であるQwen2シリーズを紹介する。
Qwen2は、前身のQwen1.5を含む、これまでのほとんどのオープンウェイトモデルを超え、プロプライエタリモデルと比較して競争力のある性能を示している。
Qwen2は、英語、中国語、スペイン語、フランス語、ドイツ語、アラビア語、ロシア語、韓国語、日本語、タイ語、ベトナム語など、約30の言語で熟練した堅牢な多言語機能を示している。
論文 参考訳(メタデータ) (2024-07-15T12:35:42Z) - Monolingual and Cross-Lingual Knowledge Transfer for Topic
Classification [0.0]
このデータセットは、大規模なサンプル数(361,560シングルラベル、170,930マルチラベル)と広範なクラスカバレッジ(76クラス)を組み合わせる。
ロシアのMASSIVEサブセットの6つのマッチングクラスのトレーニングモデルであるRuQTopicsを評価することで、RuQTopicsデータセットが現実世界の会話タスクに適していることが証明された。
論文 参考訳(メタデータ) (2023-06-13T14:19:45Z) - Vega-MT: The JD Explore Academy Translation System for WMT22 [67.71016343958556]
言語ペアとモデルサイズという2つの主要な要因をスケールアップすることで、これまでの作業の限界を押し上げます。
第1位はZh-En(45.1)、En-Zh(61.7)、De-En(58.0)、En-De(63.2)、Cs-En(74.7)、Ru-En(64.9)、En-Ru(69.6)、En-Ja(65.1)、En-Cs(95.3)、Ja-En(40.6)である。
論文 参考訳(メタデータ) (2022-09-20T03:45:24Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。