Fugu-MT 論文翻訳(概要): Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service

論文の概要: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service

arxiv url: http://arxiv.org/abs/2411.12262v2
Date: Thu, 19 Dec 2024 07:29:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:15.811395
Title: Low-resource Machine Translation: what for? who for? An observational study on a dedicated Tetun language translation service
Title（参考訳）: 低リソース機械翻訳:何のために? : テトゥーン語翻訳専門サービスに関する観察的研究
Authors: Raphael Merx, Adérito José Guterres Correia, Hanna Suominen, Ekaterina Vylomova,
Abstract要約: 本稿では,Timor-LesteのTetun言語におけるMTサービスの実際の利用パターンについて考察する。 10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。この結果から,テトゥーンのような少数言語のためのMTシステムは,教育的文脈に関連する領域の精度を優先すべきであることが示唆された。
参考スコア（独自算出の注目度）: 7.299910666525873
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.
Abstract（参考訳）: 低リソース機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示し、未理解のままである。調査と焦点群を補完するため,Timor-Leste の lingua Frana である Tetun 言語専用の MT サービスの実際の利用パターンを考察した。 10万件の翻訳要求を解析した結果,既存のコーパスに基づいて仮定に挑戦するパターンが明らかになった。モバイル機器のユーザは、多くはモバイルデバイスの学生で、通常、科学、医療、日常生活などさまざまな分野にまたがって、高ソースの言語からテキストをTetunに翻訳する。これは、政府や社会問題に関するニュース記事が支配するテトゥンコーパスとは対照的である。この結果から,テトゥーンのような少数言語のためのMTシステムは,高リソースから低リソースの方向に,教育コンテキストに関連する領域の精度を優先すべきであることが示唆された。より広範に、実践的なコミュニティニーズの研究を基盤として、観察分析が低リソース言語技術開発にどのように役立つかを示す。

関連論文リスト

Languages Still Left Behind: Toward a Better Multilingual Machine Translation Benchmark [11.068031181100276]
我々は4つの言語(Asante Twi, Japanese, Jinghpaw, South Azerbaijani)のデータを研究する。真の多言語評価に対するベンチマークの適合性の重大な欠点を明らかにする。我々は、ドメイン汎用および文化的に中立なソーステキストを使用する多言語MTベンチマークを提唱する。
論文参考訳（メタデータ） (2025-08-28T07:52:42Z)
Monolingual and Multilingual Misinformation Detection for Low-Resource Languages: A Comprehensive Survey [2.5459710368096586]
誤報は言語境界を超越し、モデレーションシステムに挑戦する。誤情報検出に対するほとんどのアプローチはモノリンガルであり、高リソース言語に焦点を当てている。この調査は、低リソース言語における誤情報検出に関する現在の研究の概要を概観する。
論文参考訳（メタデータ） (2024-10-24T03:02:03Z)
Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文参考訳（メタデータ） (2024-06-21T20:02:22Z)
MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation [61.65537912700187]
機械翻訳(MT)分野における言語モデル(LLM)の強みを実証した。我々は,LLMから既存のMTモデルに選択的かつ包括的かつ積極的に知識を伝達するMT-Patcherというフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-14T16:07:39Z)
End-to-End Speech-to-Text Translation: A Survey [0.0]
音声からテキストへの翻訳(英: Speech-to-text translation)とは、ある言語の音声信号を他の言語のテキストに変換するタスクである。機械翻訳(MT)モデルと同様に、自動音声認識(ASR)は従来のST翻訳において重要な役割を果たす。
論文参考訳（メタデータ） (2023-12-02T07:40:32Z)
Replicable Benchmarking of Neural Machine Translation (NMT) on Low-Resource Local Languages in Indonesia [4.634142034755327]
本研究は,インドネシアの4つの低リソースローカル言語(ジャワ語,スンダ語,ミナンカバウ語,バリンセ語)を対象としたNMTシステムの訓練を包括的に分析する。我々の研究は、限られた計算資源とテキストデータにもかかわらず、いくつかのNMTシステムが競合性能を達成することを実証している。
論文参考訳（メタデータ） (2023-11-02T05:27:48Z)
Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文参考訳（メタデータ） (2023-05-30T17:03:52Z)
Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文参考訳（メタデータ） (2023-05-21T15:07:04Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
Dictionary-based Phrase-level Prompting of Large Language Models for Machine Translation [91.57514888410205]
大規模言語モデル(LLM)は、プロンプトによる機械翻訳(MT)能力を示す。 LLMは、低リソースやドメイン転送のシナリオで一般的なまれな単語で入力を翻訳するのに苦労する。 LLMプロンプトは、バイリンガル辞書からの事前知識を用いてプロンプトの制御ヒントを提供することにより、稀な単語に対する効果的な解決策を提供することができることを示す。
論文参考訳（メタデータ） (2023-02-15T18:46:42Z)
Prompting PaLM for Translation: Assessing Strategies and Performance [16.73524055296411]
経路言語モデル (PaLM) は, 同様に訓練されたLLMの中で最強の機械翻訳(MT)性能を示した。我々は、PaLMのMT機能に関する以前の評価を、より最近のテストセット、現代のMTメトリクス、そして人間の評価で再検討し、その性能は、印象的ではあるが、最先端の監視システムよりも遅れていることを発見した。
論文参考訳（メタデータ） (2022-11-16T18:42:37Z)
IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。 IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文参考訳（メタデータ） (2022-01-27T18:53:22Z)
When Does Translation Require Context? A Data-driven, Multilingual Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文参考訳（メタデータ） (2021-09-15T17:29:30Z)
Survey of Low-Resource Machine Translation [65.52755521004794]
現在、世界中で約7000の言語が話されており、ほとんど全ての言語ペアは機械翻訳モデルのトレーニングのための重要なリソースを欠いている。翻訳データが少ない場合に有用な翻訳モデルを作成するという課題に対処する研究への関心が高まっている。
論文参考訳（メタデータ） (2021-09-01T16:57:58Z)
FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。 FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文参考訳（メタデータ） (2020-12-31T17:15:09Z)
Participatory Research for Low-resourced Machine Translation: A Case Study in African Languages [15.859824747983556]
ロー・リソーシング」はデータの可用性を超えた複雑な問題であり、社会の体系的な問題を反映している。我々は,機械翻訳開発プロセスに必要なすべてのエージェントを巻き込む手段として,参加研究を提案する。
論文参考訳（メタデータ） (2020-10-05T21:50:38Z)
A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。 MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文参考訳（メタデータ） (2020-01-04T19:38:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。