論文の概要: From Brazilian Portuguese to European Portuguese
- arxiv url: http://arxiv.org/abs/2408.07457v1
- Date: Wed, 14 Aug 2024 10:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:34:28.403871
- Title: From Brazilian Portuguese to European Portuguese
- Title(参考訳): ブラジルポルトガル語からヨーロッパポルトガル語へ
- Authors: João Sanches, Rui Ribeiro, Luísa Coheur,
- Abstract要約: ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。
2つの変種間での資源の入手にはかなりの不均衡がある。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brazilian Portuguese and European Portuguese are two varieties of the same language and, despite their close similarities, they exhibit several differences. However, there is a significant disproportion in the availability of resources between the two variants, with Brazilian Portuguese having more abundant resources. This inequity can impact the quality of translation services accessible to European Portuguese speakers. To address this issue, we propose the development of a Brazilian Portuguese to European Portuguese translation system, leveraging recent advancements in neural architectures and models. To evaluate the performance of such systems, we manually curated a gold test set comprising 500 sentences across five different topics. Each sentence in the gold test set has two distinct references, facilitating a straightforward evaluation of future translation models. We experimented with various models by fine-tuning existing Large Language Models using parallel data extracted from movie subtitles and TED Talks transcripts in both Brazilian and European Portuguese. Our evaluation involved the use of conventional automatic metrics as well as a human evaluation. In addition, all models were compared against ChatGPT 3.5 Turbo, which currently yields the best results.
- Abstract(参考訳): ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種であり、その類似性にも拘わらず、いくつかの相違が見られる。
しかし、ブラジルのポルトガルはより豊富な資源を持っているため、この2つの変種の間で資源の入手が困難である。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
この問題に対処するため、我々は、近年のニューラルアーキテクチャとモデルの発展を活用して、ブラジルからヨーロッパへのポルトガル語翻訳システムの開発を提案する。
これらのシステムの性能を評価するために,5つのトピックにまたがる500文からなるゴールドテストセットを手作業でキュレートした。
ゴールドテストセットの各文は2つの異なる参照を持ち、将来の翻訳モデルを簡単に評価するのに役立つ。
ブラジル語とヨーロッパのポルトガル語で映画字幕とTEDトークの文字起こしから抽出した並行データを用いて,既存のLarge Language Modelsを微調整し,様々なモデルを実験した。
評価には,従来の自動測定と人的評価が関与した。
さらに、全てのモデルがChatGPT 3.5ターボと比較され、現在最高の結果が得られた。
関連論文リスト
- Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。
本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。
我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:06Z) - PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese [1.2779732438508473]
我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-04-08T09:22:41Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Transformers and Transfer Learning for Improving Portuguese Semantic
Role Labeling [2.9005223064604078]
低リソース言語、特にポルトガル語の場合、現在利用可能なSRLモデルは、トレーニングデータの不足によって妨げられます。
トレーニング済みのBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-01-04T19:56:01Z) - Translating Similar Languages: Role of Mutual Intelligibility in
Multilingual Transformers [8.9379057739817]
低資源条件下での類似言語間の翻訳手法について検討する。
トランスフォーマーをベースとしたバイリンガル・マルチリンガル系を全ての言語対に対して提案する。
私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。
論文 参考訳(メタデータ) (2020-11-10T10:58:38Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - PTT5: Pretraining and validating the T5 model on Brazilian Portuguese
data [4.579262239784748]
ポルトガルのWebページの大規模なコレクションであるBrWac corpus上で、T5モデルを事前訓練する。
ポルトガルの事前訓練モデルでは、オリジナルのT5モデルよりも大幅に性能が向上していることを示す。
論文 参考訳(メタデータ) (2020-08-20T18:10:13Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。