論文の概要: The Construction and Evaluation of the LEAFTOP Dataset of Automatically
Extracted Nouns in 1480 Languages
- arxiv url: http://arxiv.org/abs/2206.05034v1
- Date: Mon, 9 May 2022 01:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-13 20:12:36.249354
- Title: The Construction and Evaluation of the LEAFTOP Dataset of Automatically
Extracted Nouns in 1480 Languages
- Title(参考訳): 1480言語における自動抽出名詞のリーフトップデータセットの構築と評価
- Authors: Greg Baker, Diego Molla-Aliod
- Abstract要約: LEAFTOPデータセットは、新約聖書の4つの福音書の複数の場所に現れる名詞で構成されている。
私たちは1480の他の言語での可能性のある翻訳を識別するために、単純なアプローチ、確率的推論(probabilistic inference)を使います。
翻訳が容易で難易度の高い名詞、このテクニックが機能する言語ファミリー、そして将来可能な改善と拡張を識別する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LEAFTOP (language extracted automatically from thousands of passages)
dataset consists of nouns that appear in multiple places in the four gospels of
the New Testament. We use a naive approach -- probabilistic inference -- to
identify likely translations in 1480 other languages. We evaluate this process
and find that it provides lexiconaries with accuracy from 42% (Korafe) to 99%
(Runyankole), averaging 72% correct across evaluated languages. The process
translates up to 161 distinct lemmas from Koine Greek (average 159). We
identify nouns which appear to be easy and hard to translate, language families
where this technique works, and future possible improvements and extensions.
The claims to novelty are: the use of a Koine Greek New Testament as the source
language; using a fully-annotated manually-created grammatically parse of the
source text; a custom scraper for texts in the target languages; a new metric
for language similarity; a novel strategy for evaluation on low-resource
languages.
- Abstract(参考訳): リーフトップ(数千の節から自動的に抽出された言語)データセットは、新約聖書の4つの福音書の複数の箇所に現れる名詞で構成されている。
確率的推論(probabilistic inference)というナイーブなアプローチを使って、1480の他の言語でおそらく翻訳されるものを特定します。
このプロセスを評価し,評価言語全体で平均72%の精度で,42% (Korafe) から99% (Runyankole) の精度で辞書を提供することを確認した。
この過程は161の異なる補題をコーヌ語のギリシア語(平均159)と訳す。
私たちは、簡単で翻訳が難しいと思われる名詞、この技術が機能する言語ファミリー、将来可能な改善と拡張を特定します。
新規性に対する主張は、ソース言語としてKoine Greek New Testamentを使用すること、ソースコードを手作業で文法的に解析すること、ターゲット言語のテキストのカスタムスクレイパーを使用すること、言語類似性の新たな指標、低リソース言語の評価のための新しい戦略である。
関連論文リスト
- Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Mitigating Translationese in Low-resource Languages: The Storyboard Approach [9.676710061071809]
本稿では,より流動的で自然な文を引き出すために,ストーリーボードを活用した新しいデータ収集手法を提案する。
提案手法では,視覚刺激のあるネイティブ話者をストーリーボード形式で提示し,その記述を原文に直接露出することなく収集する。
従来のテキスト翻訳手法とストーリーボードによるアプローチを,精度と流布率の観点から総合評価した。
論文 参考訳(メタデータ) (2024-07-14T10:47:03Z) - PrOnto: Language Model Evaluations for 859 Languages [2.9914612342004503]
本稿では,新約聖書翻訳を施した言語に対して,事前学習した言語モデル評価に適した評価データセット群を受信できる新しい評価データセット構築手法を提案する。
この手法は、英語OntoNotesのNew Testament部分にあるものと詩を一致させ、手動の注釈を必要とせず、英語からターゲット言語にアノテーションを投影する。
859年の新約聖書翻訳1051件に適用し公開する。
論文 参考訳(メタデータ) (2023-05-22T00:33:52Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。