論文の概要: The first open machine translation system for the Chechen language
- arxiv url: http://arxiv.org/abs/2507.12672v1
- Date: Wed, 16 Jul 2025 23:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.295295
- Title: The first open machine translation system for the Chechen language
- Title(参考訳): チェチェン語のための最初のオープン機械翻訳システム
- Authors: Abu-Viskhan A. Umishov, Vladislav A. Grigorian,
- Abstract要約: 脆弱なチェチェン語とロシア語を翻訳する最初のオープンソースモデルを紹介します。
我々は,新たな言語を多言語翻訳のための大規模言語モデルシステムNLLB-200に組み込むための微調整機能について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce the first open-source model for translation between the vulnerable Chechen language and Russian, and the dataset collected to train and evaluate it. We explore fine-tuning capabilities for including a new language into a large language model system for multilingual translation NLLB-200. The BLEU / ChrF++ scores for our model are 8.34 / 34.69 and 20.89 / 44.55 for translation from Russian to Chechen and reverse direction, respectively. The release of the translation models is accompanied by the distribution of parallel words, phrases and sentences corpora and multilingual sentence encoder adapted to the Chechen language.
- Abstract(参考訳): 脆弱なチェチェン語とロシア語の翻訳のための最初のオープンソースモデルと、それをトレーニングし評価するために収集されたデータセットを紹介します。
我々は,新たな言語を多言語翻訳のための大規模言語モデルシステムNLLB-200に組み込むための微調整機能について検討する。
我々のモデルにおけるBLEU / ChrF++スコアは8.34 / 34.69と20.89 / 44.55で、それぞれロシア語からチェチェン語への翻訳と逆方向の変換を行う。
翻訳モデルのリリースには、Chechen言語に適応したパラレルワード、フレーズ、文のコーパスと多言語文エンコーダの配布が伴う。
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Neural machine translation system for Lezgian, Russian and Azerbaijani languages [0.0]
我々は、ロシア語、アゼルバイジャン語および絶滅危惧言語間の翻訳のための最初のニューラルマシン翻訳システムをリリースした。
複数の実験により、トレーニング言語ペアとデータドメインの異なるセットが、結果の翻訳品質にどのように影響するかを特定する。
論文 参考訳(メタデータ) (2024-10-07T20:08:10Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Machine Translation Models are Zero-Shot Detectors of Translation Direction [46.41883195574249]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - The first neural machine translation system for the Erzya language [0.0951828574518325]
絶滅危惧言語エルジーア語とロシア語を翻訳するための最初のニューラルマシン翻訳システムを提案する。
BLEUのスコアはエルジーア語とロシア語への翻訳で17と19であり、翻訳の半数以上が母語話者によって受け入れられていると評価されている。
収集したテキストコーパス、新しい言語識別モデル、Erzya言語に適応した多言語文エンコーダとともに、翻訳モデルをリリースする。
論文 参考訳(メタデータ) (2022-09-19T22:21:37Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Transformers for Headline Selection for Russian News Clusters [0.0]
本稿では,対話評価2021における複数言語とロシア語の事前学習型トランスフォーマーモデルについて検討する。
本実験は, 個別の多言語モデルと単言語モデルに比較して, 組み合わせアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2021-06-19T12:34:00Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。