論文の概要: Taxonomic Loss for Morphological Glossing of Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2308.15055v1
- Date: Tue, 29 Aug 2023 06:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:27:08.550879
- Title: Taxonomic Loss for Morphological Glossing of Low-Resource Languages
- Title(参考訳): 低リソース言語の形態的用語集に対する分類学的損失
- Authors: Michael Ginn and Alexis Palmer
- Abstract要約: 本稿では,形態情報を利用した分類損失関数を用いて,データ不足時の形態的光沢化を向上する手法を提案する。
この損失関数の使用は単一ラベルの予測精度において標準損失関数より優れているわけではないが、トップnの予測ラベルを考えると予測精度が向上することがわかった。
- 参考スコア(独自算出の注目度): 2.2783452228152923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morpheme glossing is a critical task in automated language documentation and
can benefit other downstream applications greatly. While state-of-the-art
glossing systems perform very well for languages with large amounts of existing
data, it is more difficult to create useful models for low-resource languages.
In this paper, we propose the use of a taxonomic loss function that exploits
morphological information to make morphological glossing more performant when
data is scarce. We find that while the use of this loss function does not
outperform a standard loss function with regards to single-label prediction
accuracy, it produces better predictions when considering the top-n predicted
labels. We suggest this property makes the taxonomic loss function useful in a
human-in-the-loop annotation setting.
- Abstract(参考訳): Morpheme glossingは自動言語ドキュメンテーションにおいて重要なタスクであり、他の下流アプリケーションに大きな恩恵をもたらすことができる。
最先端の光沢システムは、既存の大量のデータを持つ言語で非常によく機能するが、低リソース言語のための有用なモデルを作成することはより困難である。
本稿では,形態情報を利用した分類損失関数を用いて,データ不足時の形態的光沢化を向上する手法を提案する。
この損失関数の使用は単一ラベルの予測精度において標準損失関数より優れているわけではないが、トップnの予測ラベルを考えるとより良い予測が得られる。
この特性は, ループ内アノテーション設定において, 分類学的損失関数が有効であることを示唆する。
関連論文リスト
- Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Neural Feature-Adaptation for Symbolic Predictions Using Pre-Training
and Semantic Loss [19.069832241910742]
我々は,人間の理解不能な概念の観点から説明可能な予測を行うための高レベルな記号層からなるニューロシンボリックシステムに興味を持っている。
NEUROLOGは、既存の特徴ベースのシンボルモデルで生データから特徴値の抽出をガイドできる意味損失関数の使用を提案した。
NEUROLOG法は, 特徴量に関する事前情報がないと, 実質的に不正確な特徴量予測であっても, 正確な予測を継続できることを示す。
論文 参考訳(メタデータ) (2022-11-29T09:34:19Z) - The Impact of Data Corruption on Named Entity Recognition for
Low-resourced Languages [0.10641561702689348]
データ可用性と品質は、低リソース言語の自然言語処理において大きな課題である。
低リソース環境における事前学習言語モデルの性能に及ぼすデータ量と品質の影響を計測する。
論文 参考訳(メタデータ) (2022-08-09T07:15:20Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Variational Information Bottleneck for Effective Low-Resource
Fine-Tuning [40.66716433803935]
低リソースターゲットタスクの微調整において,無関係な特徴を抑えるために,変動情報ボット (VIB) を提案する。
我々のVIBモデルは、自然言語推論データセットのバイアスに対してより堅牢な文表現を見つける。
論文 参考訳(メタデータ) (2021-06-10T03:08:13Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Improved Natural Language Generation via Loss Truncation [29.676561106319173]
識別性は、無効な参照を扱うための原則的で堅牢な代替手段であることを示す。
学習中に高損失例を適応的に除去する損失トランケーションを提案する。
これは、ログの損失やノイズ下での識別性を厳格に制限するのと同じくらい簡単に最適化できることを示している。
論文 参考訳(メタデータ) (2020-04-30T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。