論文の概要: Towards Computational Linguistics in Minangkabau Language: Studies on
Sentiment Analysis and Machine Translation
- arxiv url: http://arxiv.org/abs/2009.09309v1
- Date: Sat, 19 Sep 2020 22:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 21:19:00.950036
- Title: Towards Computational Linguistics in Minangkabau Language: Studies on
Sentiment Analysis and Machine Translation
- Title(参考訳): ミナンカバウ語における計算言語学:感性分析と機械翻訳に関する研究
- Authors: Fajri Koto, Ikhwan Koto
- Abstract要約: 我々は、感情分析と、TwitterとWikipediaから収集、構築された機械翻訳の2つのMinangkabauコーパスをリリースする。
我々は,従来の機械学習とLSTMやTransformerといったシーケンス・ツー・シーケンスモデルを用いて,ミナンカバウ語で最初の計算言語学を行う。
- 参考スコア(独自算出の注目度): 5.381004207943597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although some linguists (Rusmali et al., 1985; Crouch, 2009) have fairly
attempted to define the morphology and syntax of Minangkabau, information
processing in this language is still absent due to the scarcity of the
annotated resource. In this work, we release two Minangkabau corpora: sentiment
analysis and machine translation that are harvested and constructed from
Twitter and Wikipedia. We conduct the first computational linguistics in
Minangkabau language employing classic machine learning and
sequence-to-sequence models such as LSTM and Transformer. Our first experiments
show that the classification performance over Minangkabau text significantly
drops when tested with the model trained in Indonesian. Whereas, in the machine
translation experiment, a simple word-to-word translation using a bilingual
dictionary outperforms LSTM and Transformer model in terms of BLEU score.
- Abstract(参考訳): 一部の言語学者(rusmali et al., 1985; crouch, 2009)はミナンカバウの形態と構文の定義をかなり試みているが、注釈付きリソースの不足のため、この言語における情報処理はまだ存在しない。
本研究では,TwitterとWikipediaから抽出・構築した感情分析と機械翻訳の2つのMinangkabauコーパスをリリースする。
我々は,従来の機械学習とLSTMやTransformerといったシーケンス・ツー・シーケンスモデルを用いて,ミナンカバウ語で最初の計算言語学を行う。
最初の実験では、インドネシアで訓練されたモデルを用いて、Minangkabauテキストの分類性能が著しく低下することを示した。
一方、機械翻訳実験では、バイリンガル辞書を用いた簡単な単語間翻訳がBLEUスコアでLSTMとTransformerモデルより優れている。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Domain-Specific Text Generation for Machine Translation [7.803471587734353]
ドメイン固有データ拡張のための最先端事前学習言語モデル(LM)を利用したドメイン適応手法を提案する。
我々は、ドメイン内テキストの翻訳を大幅に改善するモデルを訓練するために、混合微調整を用いています。
論文 参考訳(メタデータ) (2022-08-11T16:22:16Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Domain Adaptation of NMT models for English-Hindi Machine Translation
Task at AdapMT ICON 2020 [2.572404739180802]
本稿では,adapmt共有タスクアイコン2020で提示された英語ヒンディー語のニューラルマシン翻訳システムについて述べる。
我々のチームは化学・一般分野のEn-Hi翻訳タスクで第1位、AI分野のEn-Hi翻訳タスクで第2位にランクインした。
論文 参考訳(メタデータ) (2020-12-22T15:46:40Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - HausaMT v1.0: Towards English-Hausa Neural Machine Translation [0.012691047660244334]
英語・ハウサ語機械翻訳のベースラインモデルを構築した。
ハーサ語は、アラビア語に次いで世界で2番目に大きいアフロ・アジア語である。
論文 参考訳(メタデータ) (2020-06-09T02:08:03Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。