論文の概要: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- arxiv url: http://arxiv.org/abs/2411.12262v1
- Date: Tue, 19 Nov 2024 06:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:07.240759
- Title: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- Title(参考訳): 低リソース機械翻訳:何のために? : テトゥーン語翻訳専門サービスに関する観察的研究
- Authors: Raphael Merx, Hanna Suominen, Adérito José Guterres Correia, Trevor Cohn, Ekaterina Vylomova,
- Abstract要約: 我々は,Timor-Lesteのリンガ・フランカであるTetunについて,実世界のMT利用の観察分析を行った。
10万ドルの翻訳要求を分析してみると、既存のコーパスに基づいて仮定に挑戦するパターンが明らかになる。
- 参考スコア(独自算出の注目度): 31.883641424813245
- License:
- Abstract: The impact of machine translation (MT) on low-resource languages remains poorly understood. In particular, observational studies of actual usage patterns are scarce. Such studies could provide valuable insights into user needs and behaviours, complementing survey-based methods. Here we present an observational analysis of real-world MT usage for Tetun, the lingua franca of Timor-Leste, using server logs from a widely-used MT service with over $70,000$ monthly active users. Our analysis of $100,000$ translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate short texts into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for languages like Tetun should prioritise translating into the low-resource language, handling brief inputs effectively, and covering a wide range of domains relevant to educational contexts. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.
- Abstract(参考訳): 低リソース言語に対する機械翻訳(MT)の影響はいまだよく分かっていない。
特に実際の使用パターンの観察的研究は少ない。
このような研究は、ユーザニーズや行動に関する貴重な洞察を与え、調査ベースの手法を補完する可能性がある。
本稿では,Timor-Lesteの言語フランカであるTetunについて,月間70,000ドル以上のアクティブユーザを抱える広く利用されているMTサービスのサーバログを用いて,実世界のMT使用状況の観察分析を行った。
10万ドルの翻訳要求を分析してみると、既存のコーパスに基づいて仮定に挑戦するパターンが明らかになる。
モバイル機器の学生であるユーザの多くは、科学、医療、日常生活などさまざまな分野の短いテキストをTetunに翻訳している。
これは、政府や社会問題に関するニュース記事が支配するテトゥンコーパスとは対照的である。
この結果から,Tetunのような言語用MTシステムは,低リソース言語への翻訳を優先し,簡潔な入力を効果的に処理し,教育的文脈に関連する幅広い領域をカバーすべきであることが示唆された。
より広範に、実践的なコミュニティニーズの研究を基盤として、観察分析が低リソース言語技術開発にどのように役立つかを示す。
関連論文リスト
- Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。
機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-12-02T07:40:32Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-05-21T15:07:04Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。