論文の概要: Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing
- arxiv url: http://arxiv.org/abs/2406.11085v1
- Date: Sun, 16 Jun 2024 22:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:03:42.137169
- Title: Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing
- Title(参考訳): 複数のソースがひとつより優れている:低リソースグロースに外部知識を取り入れる
- Authors: Changbing Yang, Garrett Nicolai, Miikka Silfverberg,
- Abstract要約: 我々は,複数の言語的専門知識をコーディネートすることで,低リソース言語におけるデータ駆動グロスリングにおけるデータ不足問題に対処する。
従来の最先端技術に比べて単語レベルの精度は平均で5%向上した。
- 参考スコア(独自算出の注目度): 10.6453235045045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the data scarcity problem in automatic data-driven glossing for low-resource languages by coordinating multiple sources of linguistic expertise. We supplement models with translations at both the token and sentence level as well as leverage the extensive linguistic capability of modern LLMs. Our enhancements lead to an average absolute improvement of 5%-points in word-level accuracy over the previous state of the art on a typologically diverse dataset spanning six low-resource languages. The improvements are particularly noticeable for the lowest-resourced language Gitksan, where we achieve a 10%-point improvement. Furthermore, in a simulated ultra-low resource setting for the same six languages, training on fewer than 100 glossed sentences, we establish an average 10%-point improvement in word-level accuracy over the previous state-of-the-art system.
- Abstract(参考訳): 本稿では,複数の言語知識の源泉をコーディネートすることで,低リソース言語におけるデータ駆動グロスリングにおけるデータ不足問題に対処する。
トークンレベルと文レベルの両方の翻訳でモデルを補うとともに,現代のLLMの言語能力を活用している。
我々の拡張により、6つの低リソース言語にまたがるタイプ的多種多様なデータセットにおいて、過去の最先端技術と比較して、単語レベルの精度が平均で5%向上した。
この改善は、低リソースのGitksanでは特に顕著で、10%のポイント改善を実現しています。
さらに,同じ6言語を対象とした擬似超低リソース設定において,100文字未満の文を訓練することにより,従来の最先端システムよりも平均10%の精度向上を実現した。
関連論文リスト
- Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition [2.7247388777405597]
重み付きクロスエントロピーの新たな応用法を提案する。
我々は5つの高ソース言語と1つの低リソース言語でWhisper多言語ASRモデルを微調整する。
論文 参考訳(メタデータ) (2024-09-25T14:09:09Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Embedded Translations for Low-resource Automated Glossing [11.964276799347642]
我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
グロース出力を生成する文字レベルデコーダを提案する。
本結果は,システムの性能向上における翻訳情報の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-03-13T02:23:13Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。