論文の概要: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- arxiv url: http://arxiv.org/abs/2411.12262v2
- Date: Thu, 19 Dec 2024 07:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:42.786637
- Title: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
- Title(参考訳): 低リソース機械翻訳:何のために? : テトゥーン語翻訳専門サービスに関する観察的研究
- Authors: Raphael Merx, Adérito José Guterres Correia, Hanna Suominen, Ekaterina Vylomova,
- Abstract要約: 本稿では,Timor-LesteのTetun言語におけるMTサービスの実際の利用パターンについて考察する。
10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。
この結果から,テトゥーンのような少数言語のためのMTシステムは,教育的文脈に関連する領域の精度を優先すべきであることが示唆された。
- 参考スコア(独自算出の注目度): 7.299910666525873
- License:
- Abstract: Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.
- Abstract(参考訳): 低リソース機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示し、未理解のままである。
調査と焦点群を補完するため,Timor-Leste の lingua Frana である Tetun 言語専用の MT サービスの実際の利用パターンを考察した。
10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。
モバイル機器のユーザは、多くはモバイルデバイスの学生で、通常、科学、医療、日常生活などさまざまな分野にまたがって、高ソースの言語からテキストをTetunに翻訳する。
これは、政府や社会問題に関するニュース記事が支配するテトゥンコーパスとは対照的である。
この結果から,テトゥーンのような少数言語のためのMTシステムは,高リソースから低リソースの方向に,教育コンテキストに関連する領域の精度を優先すべきであることが示唆された。
より広範に、実践的なコミュニティニーズの研究を基盤として、観察分析が低リソース言語技術開発にどのように役立つかを示す。
関連論文リスト
- Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
本調査は、低リソース言語誤報検出に関する現在の研究の概要を概観する。
これらの領域で使用されている既存のデータセット、方法論、ツールをレビューし、データリソース、モデル開発、文化的・言語的文脈、現実世界の応用、研究の取り組みに関する重要な課題を特定します。
本研究は,多様な言語・文化的文脈における誤情報に対処できる,堅牢で包括的なシステムの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-10-24T03:02:03Z) - Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - Replicable Benchmarking of Neural Machine Translation (NMT) on
Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。
我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文 参考訳(メタデータ) (2023-11-02T05:27:48Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。
翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文 参考訳(メタデータ) (2021-09-01T16:57:58Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Participatory Research for Low-resourced Machine Translation: A Case
Study in African Languages [15.859824747983556]
ロー・リソーシング」はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。
我々は,機械翻訳開発プロセスに必要なすべてのエージェントを巻き込む手段として,参加研究を提案する。
論文 参考訳(メタデータ) (2020-10-05T21:50:38Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。