論文の概要: DIETA: A Decoder-only transformer-based model for Italian-English machine TrAnslation
- arxiv url: http://arxiv.org/abs/2601.17823v1
- Date: Sun, 25 Jan 2026 13:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.417375
- Title: DIETA: A Decoder-only transformer-based model for Italian-English machine TrAnslation
- Title(参考訳): DIETA: イタリア英語機械TrAnslationのためのデコーダのみのトランスフォーマーベースモデル
- Authors: Pranav Kasela, Marco Braga, Alessandro Ghiotto, Andrea Pilzer, Marco Viviani, Alessandro Raganato,
- Abstract要約: DIETAは、0.5億のパラメータを持つ小さなデコーダのみのトランスフォーマーモデルである。
約2億7700万のイタリア語と英語の文対からなる大きな並列コーパスを収集し、キュレートする。
2025 WikiNews の記事を基に,450 文からなる新しい小規模評価セットをリリースする。
- 参考スコア(独自算出の注目度): 74.85762984118024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present DIETA, a small, decoder-only Transformer model with 0.5 billion parameters, specifically designed and trained for Italian-English machine translation. We collect and curate a large parallel corpus consisting of approximately 207 million Italian-English sentence pairs across diverse domains, including parliamentary proceedings, legal texts, web-crawled content, subtitles, news, literature and 352 million back-translated data using pretrained models. Additionally, we create and release a new small-scale evaluation set, consisting of 450 sentences, based on 2025 WikiNews articles, enabling assessment of translation quality on contemporary text. Comprehensive evaluations show that DIETA achieves competitive performance on multiple Italian-English benchmarks, consistently ranking in the second quartile of a 32-system leaderboard and outperforming most other sub-3B models on four out of five test suites. The training script, trained models, curated corpus, and newly introduced evaluation set are made publicly available, facilitating further research and development in specialized Italian-English machine translation. https://github.com/pkasela/DIETA-Machine-Translation
- Abstract(参考訳): 本稿では,イタリアの機械翻訳用に特別に設計・訓練された,0.5億のパラメータを持つ小型デコーダのみのトランスフォーマーモデルDIETAを提案する。
我々は、議会手続き、法律文書、ウェブクローリングされたコンテンツ、字幕、ニュース、文学、および事前訓練されたモデルを用いた3億3200万の裏書きされたデータを含む、様々なドメインで約2億7700万のイタリア語と英語の文対からなる大きな並列コーパスを収集し、キュレートする。
さらに,2025 WikiNews の記事を基に,450 文からなる新しい小規模評価セットを作成し,公開し,現代テキストによる翻訳品質の評価を可能にした。
総合的な評価は、DIETAが複数のイタリア式ベンチマークで競合性能を達成し、一貫して32システムリーダーボードの第2四半期にランクインし、5つのテストスイートのうち4つで他のほとんどのサブ3Bモデルを上回っていることを示している。
トレーニングスクリプト、訓練されたモデル、キュレートされたコーパス、新しく導入された評価セットが公開されており、イタリアの特殊機械翻訳のさらなる研究と開発が促進されている。
https://github.com/pkasela/DIETA-Machine-translation
関連論文リスト
- CANTONMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation [9.244878233604819]
本稿では、カントン語から英語への機械翻訳モデルの開発と評価について述べる。
オンラインで利用可能なさまざまなコーパスと事前処理とクリーニングを組み合わせることで、新しい並列コーパスが作成されている。
合成並列コーパス生成を支援するために、Webスクレイピングを通じてモノリンガルなカントンデータセットが作成されている。
論文 参考訳(メタデータ) (2024-05-13T20:37:04Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - IT5: Text-to-text Pretraining for Italian Language Understanding and Generation [16.8189104967888]
イタリアで事前訓練されたエンコーダ・デコーダ・トランスフォーマーモデルの最初のファミリーであるIT5を紹介する。
次に、ItaGenベンチマークを紹介します。これは、イタリア語に対する幅広い自然言語理解と生成タスクを含みます。
テストされたモデル間で最高のスケールとパフォーマンスの比率を提供するために、モノリンガルなIT5モデルを見つけます。
論文 参考訳(メタデータ) (2022-03-07T22:39:01Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。