論文の概要: Robust Generalization Strategies for Morpheme Glossing in an Endangered
Language Documentation Context
- arxiv url: http://arxiv.org/abs/2311.02777v1
- Date: Sun, 5 Nov 2023 21:45:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 15:49:01.685328
- Title: Robust Generalization Strategies for Morpheme Glossing in an Endangered
Language Documentation Context
- Title(参考訳): 絶滅危惧言語文書文脈におけるモーフェムグロースのためのロバスト一般化戦略
- Authors: Michael Ginn and Alexis Palmer
- Abstract要約: 本研究では,形態素ラベリングモデルが不明瞭なジャンルのテキストに対して,その性能を評価することによって一般化する能力について検討する。
すべての実験は、マヤ語のウスパンテコで書かれたテキストを使って行われる。
- 参考スコア(独自算出の注目度): 2.2783452228152923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalization is of particular importance in resource-constrained settings,
where the available training data may represent only a small fraction of the
distribution of possible texts. We investigate the ability of morpheme labeling
models to generalize by evaluating their performance on unseen genres of text,
and we experiment with strategies for closing the gap between performance on
in-distribution and out-of-distribution data. Specifically, we use weight decay
optimization, output denoising, and iterative pseudo-labeling, and achieve a 2%
improvement on a test set containing texts from unseen genres. All experiments
are performed using texts written in the Mayan language Uspanteko.
- Abstract(参考訳): 一般化はリソース制約された設定において特に重要であり、利用可能なトレーニングデータは可能なテキストの分布のごく一部しか表現できない。
形態素ラベリングモデルの性能をテキストの非知覚ジャンルにおける性能評価によって一般化する能力について検討し,分布データと分布データとの差を閉じる手法を試す。
具体的には,重み劣化の最適化,出力分節化,反復的擬似ラベル化を行い,未熟なジャンルのテキストを含むテストセットにおいて2%の改善を実現する。
全ての実験はマヤ語のウスパンテコで書かれたテキストを用いて行われる。
関連論文リスト
- Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Principled Gradient-based Markov Chain Monte Carlo for Text Generation [77.46654898866291]
目標エネルギーに基づくテキスト分布を正確にサンプリングするために, 忠実な勾配に基づくサンプリングアルゴリズムを提案する。
我々は、忠実なサンプリング者が制御対象に忠実に固執しながら、より流動的なテキストを生成できることを実証する。
論文 参考訳(メタデータ) (2023-12-29T18:00:56Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - Revisiting text decomposition methods for NLI-based factuality scoring
of summaries [9.044665059626958]
細粒度分解が必ずしも事実性スコアの勝利戦略であるとは限らないことを示す。
また,従来提案されていたエンテーメントに基づくスコアリング手法の小さな変更により,性能が向上することを示した。
論文 参考訳(メタデータ) (2022-11-30T09:54:37Z) - Unsupervised Extractive Summarization with Heterogeneous Graph
Embeddings for Chinese Document [5.9630342951482085]
中国語文書にヘテロジニアスグラフ埋め込み (HGE) を組み込んだ教師なし抽出サマリザイトン法を提案する。
実験結果から,本手法は3つの要約データセットにおいて,強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2022-11-09T06:07:31Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Heavy-tailed Representations, Text Polarity Classification & Data
Augmentation [11.624944730002298]
所望の正則性を持つ重み付き埋め込みを学習するための新しい手法を開発した。
提案した埋め込みの尾部専用の分類器が得られ、性能がベースラインを上回っている。
合成および実テキストデータに関する数値実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2020-03-25T19:24:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。