論文の概要: The Construction and Evaluation of the LEAFTOP Dataset of Automatically
Extracted Nouns in 1480 Languages
- arxiv url: http://arxiv.org/abs/2206.05034v1
- Date: Mon, 9 May 2022 01:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 20:12:36.249354
- Title: The Construction and Evaluation of the LEAFTOP Dataset of Automatically
Extracted Nouns in 1480 Languages
- Title(参考訳): 1480言語における自動抽出名詞のリーフトップデータセットの構築と評価
- Authors: Greg Baker, Diego Molla-Aliod
- Abstract要約: LEAFTOPデータセットは、新約聖書の4つの福音書の複数の場所に現れる名詞で構成されている。
私たちは1480の他の言語での可能性のある翻訳を識別するために、単純なアプローチ、確率的推論(probabilistic inference)を使います。
翻訳が容易で難易度の高い名詞、このテクニックが機能する言語ファミリー、そして将来可能な改善と拡張を識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LEAFTOP (language extracted automatically from thousands of passages)
dataset consists of nouns that appear in multiple places in the four gospels of
the New Testament. We use a naive approach -- probabilistic inference -- to
identify likely translations in 1480 other languages. We evaluate this process
and find that it provides lexiconaries with accuracy from 42% (Korafe) to 99%
(Runyankole), averaging 72% correct across evaluated languages. The process
translates up to 161 distinct lemmas from Koine Greek (average 159). We
identify nouns which appear to be easy and hard to translate, language families
where this technique works, and future possible improvements and extensions.
The claims to novelty are: the use of a Koine Greek New Testament as the source
language; using a fully-annotated manually-created grammatically parse of the
source text; a custom scraper for texts in the target languages; a new metric
for language similarity; a novel strategy for evaluation on low-resource
languages.
- Abstract(参考訳): リーフトップ(数千の節から自動的に抽出された言語)データセットは、新約聖書の4つの福音書の複数の箇所に現れる名詞で構成されている。
確率的推論(probabilistic inference)というナイーブなアプローチを使って、1480の他の言語でおそらく翻訳されるものを特定します。
このプロセスを評価し,評価言語全体で平均72%の精度で,42% (Korafe) から99% (Runyankole) の精度で辞書を提供することを確認した。
この過程は161の異なる補題をコーヌ語のギリシア語(平均159)と訳す。
私たちは、簡単で翻訳が難しいと思われる名詞、この技術が機能する言語ファミリー、将来可能な改善と拡張を特定します。
新規性に対する主張は、ソース言語としてKoine Greek New Testamentを使用すること、ソースコードを手作業で文法的に解析すること、ターゲット言語のテキストのカスタムスクレイパーを使用すること、言語類似性の新たな指標、低リソース言語の評価のための新しい戦略である。
関連論文リスト
- Cross-Lingual Transfer from Related Languages: Treating Low-Resource
Maltese as Multilingual Code-Switching [9.435669487585917]
我々は、アラビア語、イタリア語、英語からかなりの影響を受け、特にラテン語の文字で書かれたマルタ語に焦点を当てている。
単語レベルの語源を付加した新しいデータセットを提案する。
単語の語源に基づく条件翻訳は,非選択的なパイプラインで処理されたマルタ語やマルタ語による微調整よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-30T11:04:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - PrOnto: Language Model Evaluations for 859 Languages [2.0305676256390934]
本稿では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。
この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。
859年の新約聖書翻訳1051件に適用し公開する。
論文 参考訳(メタデータ) (2023-05-22T00:33:52Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。