論文の概要: Corpus Frequencies in Morphological Inflection: Do They Matter?
- arxiv url: http://arxiv.org/abs/2510.23131v1
- Date: Mon, 27 Oct 2025 09:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.501335
- Title: Corpus Frequencies in Morphological Inflection: Do They Matter?
- Title(参考訳): 形態的インフレクションにおけるコーパス周波数:それらは重要か?
- Authors: Tomáš Sourada, Jana Straková,
- Abstract要約: システム開発における3つの重要な次元に沿った形態的インフレクションの課題に対するコーパス周波数情報の組み入れについて検討する。
その結果,43言語中26言語において,周波数認識訓練が一様サンプリングに優れていることが判明した。
- 参考スコア(独自算出の注目度): 0.5934049163128877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The traditional approach to morphological inflection (the task of modifying a base word (lemma) to express grammatical categories) has been, for decades, to consider lexical entries of lemma-tag-form triples uniformly, lacking any information about their frequency distribution. However, in production deployment, one might expect the user inputs to reflect a real-world distribution of frequencies in natural texts. With future deployment in mind, we explore the incorporation of corpus frequency information into the task of morphological inflection along three key dimensions during system development: (i) for train-dev-test split, we combine a lemma-disjoint approach, which evaluates the model's generalization capabilities, with a frequency-weighted strategy to better reflect the realistic distribution of items across different frequency bands in training and test sets; (ii) for evaluation, we complement the standard type accuracy (often referred to simply as accuracy), which treats all items equally regardless of frequency, with token accuracy, which assigns greater weight to frequent words and better approximates performance on running text; (iii) for training data sampling, we introduce a method novel in the context of inflection, frequency-aware training, which explicitly incorporates word frequency into the sampling process. We show that frequency-aware training outperforms uniform sampling in 26 out of 43 languages.
- Abstract(参考訳): 文法的カテゴリーを表すために基礎語(補題)を修飾する伝統的なアプローチは、何十年にもわたって、その頻度分布に関する情報を欠き、補題形三重項の語彙的エントリを均一に検討してきた。
しかし、本番環境では、ユーザが入力した入力が、自然テキスト中の実世界の周波数分布を反映することを期待するかもしれない。
今後の展開を念頭に置いて,システム開発における3つの重要な次元に沿った形態的インフレクションの課題へのコーパス周波数情報の導入について検討する。
i) 列車-デフ・スプリットの場合,モデルの一般化能力を評価するレムマ・ディスジョイント・アプローチと,トレーニングやテストセットにおいて,異なる周波数帯域にまたがるアイテムのリアルな分布をよりよく反映する周波数重み付き戦略を併用する。
(ii) 評価において, 頻繁な単語に重みを割り当て, 実行中のテキストの性能をよりよく近似するトークン精度で, 周波数によらず全ての項目を等しく扱う標準型精度(しばしば単に精度と呼ぶ)を補完する。
3) 学習データサンプリングにおいて, 単語の周波数をサンプリングプロセスに明示的に組み込む, 屈折・周波数認識訓練の文脈において, 新たな手法を導入する。
その結果,43言語中26言語において,周波数認識訓練が一様サンプリングに優れていることが判明した。
関連論文リスト
- Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition [7.913119666154837]
手書きテキスト認識は、視覚入力を機械可読テキストに変換することを目的としている。
文字集合は時間とともに変化し、文字の頻度分布は歴史的時代や地域によって変化する。
本稿では,予測されたテキストの文字頻度分布とターゲット分布とのワッサーシュタイン距離を組み込んだ新たな損失関数を提案する。
論文 参考訳(メタデータ) (2025-06-11T15:20:30Z) - The Harmonic Structure of Information Contours [54.38365999922221]
我々は、英語、スペイン語、ドイツ語、オランダ語、バスク語、ブラジルポルトガル語のテキストで、周期的な情報レートのパターンが一貫した証拠を見出した。
多くの支配的な周波数は談話構造と一致しており、これらの振動は意味のある言語組織を反映していることを示唆している。
論文 参考訳(メタデータ) (2025-06-04T12:56:30Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Collar-aware Training for Streaming Speaker Change Detection in
Broadcast Speech [0.0]
本稿では,話者変化検出モデルのための新しい学習手法を提案する。
提案手法では, 対象関数を用いて, モデルが特定のカラー内の1つの正のラベルを予測できるようにする。
論文 参考訳(メタデータ) (2022-05-14T15:35:43Z) - Frequency-Aware Contrastive Learning for Neural Machine Translation [24.336356651877388]
低周波ワード予測は、現代のニューラルマシン翻訳(NMT)システムにおいて依然として課題である。
低周波単語がよりコンパクトな埋め込み空間を形成するという観察に触発されて、表現学習の観点からこの問題に取り組む。
本稿では,各復号ステップの隠蔽状態を他のターゲット語から押し出す,周波数対応のトークンレベルのコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T10:10:10Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。