論文の概要: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- arxiv url: http://arxiv.org/abs/2411.12262v2
- Date: Thu, 19 Dec 2024 07:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:42.786637
- Title: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- Title(参考訳): 低リソース機械翻訳:何のために? : テトゥーン語翻訳専門サービスに関する観察的研究
- Authors: Raphael Merx, Adérito José Guterres Correia, Hanna Suominen, Ekaterina Vylomova,
- Abstract要約: 本稿では,Timor-LesteのTetun言語におけるMTサービスの実際の利用パターンについて考察する。
10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。
この結果から,テトゥーンのような少数言語のためのMTシステムは,教育的文脈に関連する領域の精度を優先すべきであることが示唆された。
- 参考スコア(独自算出の注目度): 7.299910666525873
- License:
- Abstract: Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.
- Abstract(参考訳): 低リソース機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示し、未理解のままである。
調査と焦点群を補完するため,Timor-Leste の lingua Frana である Tetun 言語専用の MT サービスの実際の利用パターンを考察した。
10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。
モバイル機器のユーザは、多くはモバイルデバイスの学生で、通常、科学、医療、日常生活などさまざまな分野にまたがって、高ソースの言語からテキストをTetunに翻訳する。
これは、政府や社会問題に関するニュース記事が支配するテトゥンコーパスとは対照的である。
この結果から,テトゥーンのような少数言語のためのMTシステムは,高リソースから低リソースの方向に,教育コンテキストに関連する領域の精度を優先すべきであることが示唆された。
より広範に、実践的なコミュニティニーズの研究を基盤として、観察分析が低リソース言語技術開発にどのように役立つかを示す。
関連論文リスト
- Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。
我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T16:07:39Z) - End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。
機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-12-02T07:40:32Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-05-21T15:07:04Z) - Dictionary-based Phrase-level Prompting of Large Language Models for
Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。
LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。
LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文 参考訳(メタデータ) (2023-02-15T18:46:42Z) - Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。
我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文 参考訳(メタデータ) (2022-11-16T18:42:37Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。