論文の概要: Two Approaches to Diachronic Normalization of Polish Texts
- arxiv url: http://arxiv.org/abs/2402.01300v1
- Date: Fri, 2 Feb 2024 10:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 15:51:04.834628
- Title: Two Approaches to Diachronic Normalization of Polish Texts
- Title(参考訳): ポーランド語テキストのダイアクロニック正規化に対する2つのアプローチ
- Authors: Kacper Dudzic, Filip Grali\'nski, Krzysztof Jassem, Marek Kubis, Piotr
Wierzcho\'n
- Abstract要約: 本稿では,ポーランド語文のダイアクロニック正規化に対する2つのアプローチについて論じる。
ルールベースのソリューションは、手作りのパターンのセットと、テキストからテキストへのトランスフォーマーアーキテクチャに基づくニューラル正規化モデルに依存している。
この問題に対する調査の現段階では、ルールベースのソリューションは、準備されたデータセットの4つの変種のうち3つのニューラルネットワークよりも優れていることが示されている。
- 参考スコア(独自算出の注目度): 3.999494748588894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses two approaches to the diachronic normalization of Polish
texts: a rule-based solution that relies on a set of handcrafted patterns, and
a neural normalization model based on the text-to-text transfer transformer
architecture. The training and evaluation data prepared for the task are
discussed in detail, along with experiments conducted to compare the proposed
normalization solutions. A quantitative and qualitative analysis is made. It is
shown that at the current stage of inquiry into the problem, the rule-based
solution outperforms the neural one on 3 out of 4 variants of the prepared
dataset, although in practice both approaches have distinct advantages and
disadvantages.
- Abstract(参考訳): 本稿では,ポーランド語テキストのダイアクロニック正規化に対する2つのアプローチについて論じる。手作りパターンの集合に依存するルールベースソリューションと,テキストからテキストへの変換変換アーキテクチャに基づくニューラル正規化モデルである。
提案した正規化法との比較実験とともに,タスクのために準備されたトレーニングおよび評価データについて詳述した。
定量的かつ定性的な分析が行われる。
この問題に対する調査の現段階では、ルールベースの解は準備されたデータセットの4つの変種のうち3つでニューラルな解よりも優れているが、実際には両者のアプローチには明確な利点とデメリットがある。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Robust Data-driven Prescriptiveness Optimization [4.792851066169871]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。
サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-09T14:56:06Z) - Best-Effort Adaptation [62.00856290846247]
本稿では, 試料再重み付け法に関する新しい理論的解析を行い, 試料再重み付け法を一様に保持する境界について述べる。
これらの境界が、我々が詳細に議論する学習アルゴリズムの設計を導く方法を示す。
本稿では,本アルゴリズムの有効性を実証する一連の実験結果について報告する。
論文 参考訳(メタデータ) (2023-05-10T00:09:07Z) - Best Subset Selection with Efficient Primal-Dual Algorithm [24.568094642425837]
多くの学習問題に対するベストサブセット選択は「ゴールドスタンダード」と見なされている。
本稿では,$ell$-regularized問題系の二重形式について検討する。
主問題構造と双対問題構造に基づく効率的な主対法が開発されている。
論文 参考訳(メタデータ) (2022-07-05T14:07:52Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - An End-to-end Chinese Text Normalization Model based on Rule-guided
Flat-Lattice Transformer [37.0774363352316]
本稿では,漢字を直接入力として受け入れるエンドツーエンドの中国語テキスト正規化モデルを提案する。
また、中国語のテキスト正規化のための、初めて一般公開された大規模データセットもリリースしました。
論文 参考訳(メタデータ) (2022-03-31T11:19:53Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z) - Dynamic Data Selection and Weighting for Iterative Back-Translation [116.14378571769045]
本稿では,反復的バックトランスレーションモデルのためのカリキュラム学習戦略を提案する。
我々は、ドメイン適応、低リソース、高リソースMT設定に関するモデルを評価する。
実験の結果,提案手法は競争基準値よりも最大1.8 BLEU点の改善を達成できた。
論文 参考訳(メタデータ) (2020-04-07T19:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。