論文の概要: Empirical Analysis of Korean Public AI Hub Parallel Corpora and in-depth
Analysis using LIWC
- arxiv url: http://arxiv.org/abs/2110.15023v1
- Date: Thu, 28 Oct 2021 11:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 03:41:18.210200
- Title: Empirical Analysis of Korean Public AI Hub Parallel Corpora and in-depth
Analysis using LIWC
- Title(参考訳): 韓国公立AIハブ並列コーパスの実証分析とLIWCを用いた深度解析
- Authors: Chanjun Park, Midan Shim, Sugyeong Eo, Seolhwa Lee, Jaehyung Seo,
Hyeonseok Moon, Heuiseok Lim
- Abstract要約: 機械翻訳(MT)システムは、ソースコードを対象言語に翻訳することを目的としている。
ニューラルマシン翻訳(NMT)を中心にしたMTシステムに関する最近の研究
NMTの性能に大きな影響を及ぼす要因の1つは、高品質な並列コーパスが利用できることである。
- 参考スコア(独自算出の注目度): 1.2571323258597844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine translation (MT) system aims to translate source language into target
language. Recent studies on MT systems mainly focus on neural machine
translation (NMT). One factor that significantly affects the performance of NMT
is the availability of high-quality parallel corpora. However, high-quality
parallel corpora concerning Korean are relatively scarce compared to those
associated with other high-resource languages, such as German or Italian. To
address this problem, AI Hub recently released seven types of parallel corpora
for Korean. In this study, we conduct an in-depth verification of the quality
of corresponding parallel corpora through Linguistic Inquiry and Word Count
(LIWC) and several relevant experiments. LIWC is a word-counting software
program that can analyze corpora in multiple ways and extract linguistic
features as a dictionary base. To the best of our knowledge, this study is the
first to use LIWC to analyze parallel corpora in the field of NMT. Our findings
suggest the direction of further research toward obtaining the improved quality
parallel corpora through our correlation analysis in LIWC and NMT performance.
- Abstract(参考訳): 機械翻訳(mt)システムは、ソース言語を対象言語に変換することを目的としている。
MTシステムに関する最近の研究は、主にニューラルマシン翻訳(NMT)に焦点を当てている。
NMTの性能に大きな影響を与える要因の1つは、高品質な並列コーパスの可用性である。
しかし、韓国語に関する高品質な並列コーパスは、ドイツ語やイタリア語のような他の高リソース言語と比べれば比較的少ない。
この問題に対処するため、AI Hubは韓国向けの7種類の並列コーパスをリリースした。
本研究では,Lingistic Inquiry and Word Count(LIWC)およびいくつかの関連する実験を通じて,対応する並列コーパスの品質を詳細に検証する。
LIWCは、コーパスを複数の方法で分析し、言語的特徴を辞書ベースとして抽出するワードカウントソフトウェアプログラムである。
我々の知る限り、この研究はNMT分野における並列コーパスの分析にLIWCを使った最初のものである。
LIWCとNMTの相関解析により,改良された並列コーパスの獲得に向けたさらなる研究の方向性が示唆された。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - An Empirical study of Unsupervised Neural Machine Translation: analyzing
NMT output, model's behavior and sentences' contribution [5.691028372215281]
Unsupervised Neural Machine Translation (UNMT) は、人間の翻訳された並列データがないと仮定して、NMTの結果を改善することに焦点を当てている。
私たちは、フランス語、グジャラーティ、カザフ語という3つの非常に多様な言語に焦点を合わせ、バイリンガルなNMTモデルを英語から英語に訓練し、様々なレベルの監督を行っている。
論文 参考訳(メタデータ) (2023-12-19T20:35:08Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z) - Self-Training for Unsupervised Neural Machine Translation in Unbalanced
Training Data Scenarios [61.88012735215636]
巨大な単言語コーパスのみに依存するunsupervised neural machine translation (UNMT)は、いくつかの翻訳タスクにおいて顕著な成果を上げている。
現実のシナリオでは、エストニア語のような極低リソース言語には巨大なモノリンガルコーパスは存在しない。
頑健なUNMTシステムの訓練と性能向上のためのUNMT自己学習機構を提案する。
論文 参考訳(メタデータ) (2020-04-09T12:07:17Z) - A Comprehensive Survey of Multilingual Neural Machine Translation [22.96845346423759]
我々は多言語ニューラルマシン翻訳(MNMT)について調査する。
MNMTは、機械翻訳の研究のために、エンドツーエンドのモデリングと分散表現が新しい道を開くため、統計機械翻訳よりも有望である。
まず、その中心となるユースケースに基づいて様々なアプローチを分類し、さらにリソースシナリオ、基礎となるモデリング原則、コアイシュー、課題に基づいてそれらを分類します。
論文 参考訳(メタデータ) (2020-01-04T19:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。