論文の概要: A Chat About Boring Problems: Studying GPT-based text normalization
- arxiv url: http://arxiv.org/abs/2309.13426v2
- Date: Wed, 17 Jan 2024 16:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:36:40.350277
- Title: A Chat About Boring Problems: Studying GPT-based text normalization
- Title(参考訳): 借入問題に関するチャット:GPTに基づくテキスト正規化の研究
- Authors: Yang Zhang, Travis M. Bartley, Mariana Graterol-Fuenmayor, Vitaly
Lavrukhin, Evelina Bakhturina, Boris Ginsburg
- Abstract要約: 少数のシナリオにおいて,テキスト正規化のための大言語モデルの能力を示す。
LLMによるテキスト正規化は、上位正規化システムよりも40%低い誤差率を達成する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
- 参考スコア(独自算出の注目度): 22.64840464909988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text normalization - the conversion of text from written to spoken form - is
traditionally assumed to be an ill-formed task for language models. In this
work, we argue otherwise. We empirically show the capacity of Large-Language
Models (LLM) for text normalization in few-shot scenarios. Combining
self-consistency reasoning with linguistic-informed prompt engineering, we find
LLM based text normalization to achieve error rates around 40\% lower than top
normalization systems. Further, upon error analysis, we note key limitations in
the conventional design of text normalization tasks. We create a new taxonomy
of text normalization errors and apply it to results from GPT-3.5-Turbo and
GPT-4.0. Through this new framework, we can identify strengths and weaknesses
of GPT-based TN, opening opportunities for future work.
- Abstract(参考訳): テキスト正規化(英: text normalization)とは、伝統的に、言語モデルにおける不整形タスクであると考えられている。
この作品では、そうでなければ議論する。
数ショットシナリオにおけるテキスト正規化のためのLarge-Language Models (LLM) の能力を実証的に示す。
自己矛盾推論と言語型プロンプトエンジニアリングを組み合わせることで,llmに基づくテキスト正規化により,上位正規化システムよりも約40%低い誤り率を達成できることがわかった。
さらに,誤り解析を行う際に,従来のテキスト正規化タスクの設計において重要な制約を指摘する。
テキスト正規化エラーの新しい分類法を作成し、GPT-3.5-TurboとGPT-4.0の結果に適用する。
この新たなフレームワークにより、GPTベースのTNの長所と短所を特定し、今後の作業の機会を開くことができる。
関連論文リスト
- Historical German Text Normalization Using Type- and Token-Based Language Modeling [0.0]
本報告では, パラレルコーパスで訓練した1700-1900年頃のドイツ語文文の正規化システムを提案する。
提案システムは,トランスフォーマー言語モデルを用いて,エンコーダ・デコーダモデルと事前学習した因果言語モデルを組み合わせて,これらの正規化を文脈内で調整する。
広範に評価した結果,提案システムでは,より大規模な完全エンドツーエンドの文ベース正規化システムに匹敵し,事前学習したTransformer大言語モデルの微調整を行うことができた。
論文 参考訳(メタデータ) (2024-09-04T16:14:05Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Collaborative Generative AI: Integrating GPT-k for Efficient Editing in
Text-to-Image Generation [114.80518907146792]
GPT-kのような大規模言語モデルを利用してテキスト・画像生成の迅速な編集プロセスを改善する可能性について検討する。
我々は、人間とGPT-kの共通編集を比較し、T2Iを誘導する際のGPT-kの性能を評価し、このプロセスに影響を与える可能性のある要因を検討する。
論文 参考訳(メタデータ) (2023-05-18T21:53:58Z) - Text normalization for low-resource languages: the case of Ligurian [8.27203430509479]
逆変換と適切なトークン化を用いることで、非常に低いエラー率を達成するために、コンパクトなトランスフォーマーベースモデルを訓練できることが示される。
正規化バージョンと組み合わせた4,394のLigurian文と、Ligurian用の最初のオープンソースモノリンガルコーパスを収集する。
論文 参考訳(メタデータ) (2022-06-16T00:37:55Z) - Shallow Fusion of Weighted Finite-State Transducer and Language Model
for Text Normalization [13.929356163132558]
ルールベースとニューラルシステムの利点を組み合わせた新しいハイブリッドアプローチを提案する。
まず、非決定論的WFSTはすべての正規化候補を出力し、次にニューラルネットワークモデルが最良の候補を選択する。
既存の最先端のTNモデルに匹敵する、あるいは優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T21:34:35Z) - Sequence-to-Sequence Lexical Normalization with Multilingual
Transformers [3.3302293148249125]
現在の自然言語処理のベンチマークタスクには、非公式な日々のデジタルコミュニケーションで使用されるテキストと質的に異なるテキストが含まれている。
この不一致は、実世界のデータに基づいて微調整された場合、最先端のNLPモデルの大幅な性能劣化を引き起こした。
機械翻訳問題として,mBARTに基づく文レベルのシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2021-10-06T15:53:20Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Universal Natural Language Processing with Limited Annotations: Try
Few-shot Textual Entailment as a Start [125.23550801424328]
Universal Few-shot Textual Entailment (UFO-Entail)
universal Few-shot Textual Entailment (UFO-Entail)を紹介する。
我々は、このフレームワークにより、事前訓練されたエンターテイメントモデルが、数ショット設定で新しいエンターテイメントドメインでうまく機能できることを実証する。
論文 参考訳(メタデータ) (2020-10-06T09:50:25Z) - Normalizing Text using Language Modelling based on Phonetics and String
Similarity [0.0]
テキスト正規化を行うための新しい頑健なモデルを提案する。
テキスト中の正規化されていない単語を根本形に置き換えようとする2つのユニークなマスキング戦略を提案する。
本手法の精度は86.7%,83.2%であり,本手法がテキスト正規化に有効であることを示す。
論文 参考訳(メタデータ) (2020-06-25T00:42:39Z) - Towards Minimal Supervision BERT-based Grammar Error Correction [81.90356787324481]
我々は、事前訓練された言語モデルからコンテキスト情報を取り入れて、アノテーションを活用し、多言語シナリオの恩恵を得ようとしている。
その結果、文法的誤り訂正タスクにおいて、変換器(BERT)からの双方向表現の強い可能性を示す。
論文 参考訳(メタデータ) (2020-01-10T15:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。