論文の概要: Utilizing Language Relatedness to improve Machine Translation: A Case
Study on Languages of the Indian Subcontinent
- arxiv url: http://arxiv.org/abs/2003.08925v1
- Date: Thu, 19 Mar 2020 17:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:15:17.394969
- Title: Utilizing Language Relatedness to improve Machine Translation: A Case
Study on Languages of the Indian Subcontinent
- Title(参考訳): 機械翻訳改善のための言語関連性の利用:インド亜大陸の言語を事例として
- Authors: Anoop Kunchukuttan, Pushpak Bhattacharyya
- Abstract要約: インド亜大陸の言語を含む統計機械翻訳の広範な研究について述べる。
これらの言語は、遺伝的および接触関係によって関連付けられている。
これらの関係から生じる言語間の類似性について述べる。
- 参考スコア(独自算出の注目度): 40.04533178713497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an extensive study of statistical machine
translation involving languages of the Indian subcontinent. These languages are
related by genetic and contact relationships. We describe the similarities
between Indic languages arising from these relationships. We explore how
lexical and orthographic similarity among these languages can be utilized to
improve translation quality between Indic languages when limited parallel
corpora is available. We also explore how the structural correspondence between
Indic languages can be utilized to re-use linguistic resources for English to
Indic language translation. Our observations span 90 language pairs from 9
Indic languages and English. To the best of our knowledge, this is the first
large-scale study specifically devoted to utilizing language relatedness to
improve translation between related languages.
- Abstract(参考訳): 本稿では,インド亜大陸の言語を含む統計的機械翻訳の広範な研究について述べる。
これらの言語は、遺伝的および接触関係によって関連付けられている。
これらの関係から生じる言語間の類似性について述べる。
これらの言語間の語彙的および正書法的類似性を利用して、並列コーパスが限られている場合に、Indic言語間の翻訳品質を改善する方法について検討する。
また,indic言語間の構造的対応が,英語からindic言語への翻訳における言語資源の再利用にどのように役立つかについても検討した。
私たちの観察は9つのIndic言語と英語の90の言語対に及びます。
私たちの知る限りでは、これは言語関連性を利用して関連言語間の翻訳を改善することに特化した最初の大規模研究です。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - CORI: CJKV Benchmark with Romanization Integration -- A step towards Cross-lingual Transfer Beyond Textual Scripts [50.44270798959864]
一部の言語は、他の言語よりも接続性が良く、ターゲット言語は、密接に関連する言語からの転送の恩恵を受けることができる。
本研究では,言語間移動におけるソース言語の影響について検討し,対象言語と高い接触を持つソース言語を選択することの重要性を示す。
論文 参考訳(メタデータ) (2024-04-19T04:02:50Z) - Patterns of Persistence and Diffusibility across the World's Languages [3.7055269158186874]
コレキシフィケーション(英: Colexification)は、複数の意味を伝えるために単一の語彙形式を用いる類似性の一種である。
我々は,言語間の類似性の言語的原因について,比較と音韻学で明らかにした。
我々は,1,966言語を対象とした意味,系譜,音韻,地理データを組み込んだ大規模グラフを構築した。
論文 参考訳(メタデータ) (2024-01-03T12:05:38Z) - Zero-shot cross-lingual transfer language selection using linguistic
similarity [3.029434408969759]
本研究では,異なる自然言語処理タスクを対象とした移動言語の選択について検討する。
この研究のために、私たちは3つの言語ファミリーから8つの異なる言語からのデータセットを使用しました。
論文 参考訳(メタデータ) (2023-01-31T15:56:40Z) - Transfer Language Selection for Zero-Shot Cross-Lingual Abusive Language
Detection [2.2998722397348335]
各言語に対するデータセットを作成する代わりに、ゼロショット乱用言語検出における言語間移動学習の有効性を実証する。
私たちのデータセットは、3つの言語ファミリーの7つの異なる言語から来ています。
論文 参考訳(メタデータ) (2022-06-02T09:53:15Z) - Utilizing Wordnets for Cognate Detection among Indian Languages [50.83320088758705]
ヒンディー語と10のインド諸語間の単語対を検出する。
深層学習手法を用いて単語対が共生か否かを予測する。
性能は最大26%向上した。
論文 参考訳(メタデータ) (2021-12-30T16:46:28Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Role of Language Relatedness in Multilingual Fine-tuning of Language
Models: A Case Study in Indo-Aryan Languages [34.79533646549939]
我々は,多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を活用した影響について検討する。
Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。
論文 参考訳(メタデータ) (2021-09-22T06:37:39Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。