論文の概要: Context-Aware Abbreviation Expansion Using Large Language Models
- arxiv url: http://arxiv.org/abs/2205.03767v3
- Date: Wed, 11 May 2022 02:25:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 04:43:04.749588
- Title: Context-Aware Abbreviation Expansion Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた文脈認識短縮拡張
- Authors: Shanqing Cai, Subhashini Venugopalan, Katrin Tomanek, Ajit Narayanan,
Meredith Ringel Morris, Michael P. Brenner
- Abstract要約: 本稿では,主に単語初期文字としてフレーズを積極的に省略するパラダイムを提案する。
我々のアプローチは、会話コンテキストを活用することで、略語をフルフレーズの選択肢に拡張することである。
- 参考スコア(独自算出の注目度): 16.52516727224014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the need for accelerating text entry in augmentative and
alternative communication (AAC) for people with severe motor impairments, we
propose a paradigm in which phrases are abbreviated aggressively as primarily
word-initial letters. Our approach is to expand the abbreviations into
full-phrase options by leveraging conversation context with the power of
pretrained large language models (LLMs). Through zero-shot, few-shot, and
fine-tuning experiments on four public conversation datasets, we show that for
replies to the initial turn of a dialog, an LLM with 64B parameters is able to
exactly expand over 70% of phrases with abbreviation length up to 10, leading
to an effective keystroke saving rate of up to about 77% on these exact
expansions. Including a small amount of context in the form of a single
conversation turn more than doubles abbreviation expansion accuracies compared
to having no context, an effect that is more pronounced for longer phrases.
Additionally, the robustness of models against typo noise can be enhanced
through fine-tuning on noisy data.
- Abstract(参考訳): 重度運動障害のある人に対するAAC(Augmentative and Alternative Communication)におけるテキスト入力の高速化の必要性から,フレーズを単語初期文字として積極的に省略するパラダイムを提案する。
我々のアプローチは、事前訓練された大言語モデル(LLM)のパワーで会話コンテキストを活用することで、略語をフルフレーズに拡張することである。
4つの公開会話データセットのゼロショット、少数ショット、微調整実験により、ダイアログの初期回転に対する応答に対して、64Bパラメータを持つLLMは、省略長が最大10までのフレーズの70%以上を正確に拡張できることを示す。
単一の会話の形に少量の文脈を含めると、文脈を持たない場合に比べて略語拡大の精度が2倍以上になる。
さらに、騒音データに対する微調整により、タイポノイズに対するモデルのロバスト性を高めることができる。
- 全文 参考訳へのリンク
関連論文リスト
- Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - AugESC: Large-scale Data Augmentation for Emotional Support Conversation
with Pre-trained Language Models [52.19393837579453]
本稿では,データ拡張のための大規模事前学習型言語モデルを提案する。
感情支援会話のための機械学習データセットであるAugESCを構築した。
論文 参考訳(メタデータ) (2022-02-26T03:17:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - How BPE Affects Memorization in Transformers [36.53583838619203]
Byte-Pair QA (BPE) で学習した単語語彙のサイズは、トレーニングデータを記憶するための標準トランスフォーマーモデルの能力と傾向に大きな影響を与えることを示す。
我々は、この効果は、BPE語彙が大きくなるにつれて起こるシーケンスの長さの減少によって生じると推測する。
論文 参考訳(メタデータ) (2021-10-06T14:01:56Z) - Structured abbreviation expansion in context [12.000998471674649]
我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
論文 参考訳(メタデータ) (2021-10-04T01:22:43Z) - Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。
句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。
また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4~10倍に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-16T17:42:45Z) - Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration [25.159601117722936]
我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
論文 参考訳(メタデータ) (2021-09-13T20:31:57Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。