論文の概要: Automatic Standardization of Colloquial Persian
- arxiv url: http://arxiv.org/abs/2012.05879v1
- Date: Thu, 10 Dec 2020 18:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 11:05:13.189286
- Title: Automatic Standardization of Colloquial Persian
- Title(参考訳): 口語ペルシア語の自動標準化
- Authors: Mohammad Sadegh Rasooli, Farzane Bakhtyari, Fatemeh Shafiei, Mahsa
Ravanbakhsh, Chris Callison-Burch
- Abstract要約: ペルシャ語のほとんどの自然言語処理ツールは、テキストが標準形式であると仮定している。
本稿では,シーケンシャル・ツー・シーケンス変換に基づく簡易かつ効果的な標準化手法について述べる。
- 参考スコア(独自算出の注目度): 15.192770717442302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Iranian Persian language has two varieties: standard and colloquial. Most
natural language processing tools for Persian assume that the text is in
standard form: this assumption is wrong in many real applications especially
web content. This paper describes a simple and effective standardization
approach based on sequence-to-sequence translation. We design an algorithm for
generating artificial parallel colloquial-to-standard data for learning a
sequence-to-sequence model. Moreover, we annotate a publicly available
evaluation data consisting of 1912 sentences from a diverse set of domains. Our
intrinsic evaluation shows a higher BLEU score of 62.8 versus 61.7 compared to
an off-the-shelf rule-based standardization model in which the original text
has a BLEU score of 46.4. We also show that our model improves
English-to-Persian machine translation in scenarios for which the training data
is from colloquial Persian with 1.4 absolute BLEU score difference in the
development data, and 0.8 in the test data.
- Abstract(参考訳): ペルシア語には標準語と口語という2つの種類がある。
ペルシャのほとんどの自然言語処理ツールは、テキストが標準形式であると仮定している: この仮定は、多くの実際のアプリケーション、特にwebコンテンツにおいて誤りである。
本稿では,シーケンシャル・ツー・シーケンス変換に基づく簡易かつ効果的な標準化手法について述べる。
逐次モデル学習のための人工的並列言語から標準語へのデータを生成するアルゴリズムを設計した。
さらに,多種多様なドメインから得られた1912文の公開評価データをアノテートする。
我々の本質的評価では,本書のbleuスコアが46.4である既定規則に基づく標準化モデルと比較して,62.8 対 61.7 のbleuスコアが高かった。
また,本モデルでは,開発データの絶対bleuスコアが1.4,テストデータが0.8で,訓練データがペルシャ語から派生したシナリオにおいて,英語からペルシア語への機械翻訳が向上することを示す。
関連論文リスト
- FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Statistical Machine Translation for Indic Languages [1.8899300124593648]
本稿では,バイリンガル統計機械翻訳モデルの開発について論じる。
このシステムを構築するために,MOSES オープンソース SMT ツールキットについて検討した。
本実験では, BLEU, METEOR, RIBESなどの標準指標を用いて, 翻訳の質を評価する。
論文 参考訳(メタデータ) (2023-01-02T06:23:12Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - Language ID in the Wild: Unexpected Challenges on the Path to a
Thousand-Language Web Text Corpus [15.807197703827818]
我々は最大1,629の言語でLangIDモデルをトレーニングします。
これらのモデルを用いて作成したウェブクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度であることがわかった。
本稿では,ワードリストに基づく可変精度フィルタとトランスフォーマーに基づく半教師付きラングIDモデルという2種類の手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T19:29:17Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z) - Reducing Non-Normative Text Generation from Language Models [7.293053431456775]
GPT-2のような大規模言語モデルは、インターネットから取り除かれた多様なコーパスで事前訓練されている。
本稿では,ポリシー勾配強化学習手法と規範テキスト分類器を用いて,GPT-2を微調整する手法を提案する。
論文 参考訳(メタデータ) (2020-01-23T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。