論文の概要: Embedded Translations for Low-resource Automated Glossing
- arxiv url: http://arxiv.org/abs/2403.08189v1
- Date: Wed, 13 Mar 2024 02:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 15:49:51.426452
- Title: Embedded Translations for Low-resource Automated Glossing
- Title(参考訳): 低リソース自動グロスティングのための組込み翻訳
- Authors: Changbing Yang, Garrett Nicolai, Miikka Silfverberg
- Abstract要約: 我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
グロース出力を生成する文字レベルデコーダを提案する。
本結果は,システムの性能向上における翻訳情報の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 11.964276799347642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate automatic interlinear glossing in low-resource settings. We
augment a hard-attentional neural model with embedded translation information
extracted from interlinear glossed text. After encoding these translations
using large language models, specifically BERT and T5, we introduce a
character-level decoder for generating glossed output. Aided by these
enhancements, our model demonstrates an average improvement of 3.97\%-points
over the previous state of the art on datasets from the SIGMORPHON 2023 Shared
Task on Interlinear Glossing. In a simulated ultra low-resource setting,
trained on as few as 100 sentences, our system achieves an average 9.78\%-point
improvement over the plain hard-attentional baseline. These results highlight
the critical role of translation information in boosting the system's
performance, especially in processing and interpreting modest data sources. Our
findings suggest a promising avenue for the documentation and preservation of
languages, with our experiments on shared task datasets indicating significant
advancements over the existing state of the art.
- Abstract(参考訳): 低リソース環境におけるライン間光沢の自動計測について検討する。
我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
BERT と T5 の大規模な言語モデルを用いてこれらの翻訳を符号化した後、グロス出力を生成するための文字レベルデコーダを導入する。
これらの拡張によって、SIGMORPHON 2023 の線形グロスティングにおける共有タスクから得られたデータセットの過去の最先端データよりも平均 3.97 % の改善が示される。
また,100文以内で訓練した超低リソース環境において,本システムは,平易なハードアテンショナルベースラインに対して平均9.78 %の精度向上を実現している。
これらの結果は,システムの性能向上,特に控えめなデータソースの処理と解釈において,翻訳情報の重要性を浮き彫りにしている。
我々の研究は,既存の最先端技術に対する大きな進歩を示す共有タスクデータセットを用いて,言語のドキュメンテーションと保存のための有望な道のりを示唆している。
関連論文リスト
- Multiple Sources are Better Than One: Incorporating External Knowledge in Low-Resource Glossing [10.6453235045045]
我々は,複数の言語的専門知識をコーディネートすることで,低リソース言語におけるデータ駆動グロスリングにおけるデータ不足問題に対処する。
従来の最先端技術に比べて単語レベルの精度は平均で5%向上した。
論文 参考訳(メタデータ) (2024-06-16T22:01:15Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning [25.230786853723203]
低リソース言語に対するノイズローバストな言語間クロスモーダル検索手法を提案する。
低リソース言語のための擬似並列文ペアを構築するために,機械翻訳を用いる。
ノイズロスのターゲット言語表現を学習するための多視点自己蒸留法を提案する。
論文 参考訳(メタデータ) (2022-08-26T09:32:24Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Fine-tuning BERT for Low-Resource Natural Language Understanding via
Active Learning [30.5853328612593]
本研究では,事前学習した Transformer ベースの言語モデル BERT の微調整手法について検討する。
実験結果から,モデルの知識獲得度を最大化することで,モデル性能の優位性を示す。
我々は、微調整中の言語モデルの凍結層の利点を分析し、トレーニング可能なパラメータの数を減らす。
論文 参考訳(メタデータ) (2020-12-04T08:34:39Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。