論文の概要: Structured abbreviation expansion in context
- arxiv url: http://arxiv.org/abs/2110.01140v1
- Date: Mon, 4 Oct 2021 01:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 01:29:17.295362
- Title: Structured abbreviation expansion in context
- Title(参考訳): 文脈における構造化省略拡張
- Authors: Kyle Gorman, Christo Kirov, Brian Roark, and Richard Sproat
- Abstract要約: 我々は,短縮メッセージの正規化および拡張バージョンを回復するために,文脈内でのアドホック略語を逆転させる作業を検討する。
この問題は、アドホックの略語が意図的であり、元の単語とはかなり異なる可能性があるという点において、綴りの修正とは関係があるが、異なるものである。
- 参考スコア(独自算出の注目度): 12.000998471674649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad hoc abbreviations are commonly found in informal communication channels
that favor shorter messages. We consider the task of reversing these
abbreviations in context to recover normalized, expanded versions of
abbreviated messages. The problem is related to, but distinct from, spelling
correction, in that ad hoc abbreviations are intentional and may involve
substantial differences from the original words. Ad hoc abbreviations are
productively generated on-the-fly, so they cannot be resolved solely by
dictionary lookup. We generate a large, open-source data set of ad hoc
abbreviations. This data is used to study abbreviation strategies and to
develop two strong baselines for abbreviation expansion
- Abstract(参考訳): アドホックな略語は、短いメッセージを好む非公式なコミュニケーションチャネルでよく見られる。
本研究は, 短縮メッセージの正規化, 拡張バージョンを回復するために, 文脈内でこれらの略語を逆転させる作業を検討する。
この問題は、アドホックな略語が意図的であり、元の単語と実質的な違いがあるという点で、綴りの修正とは関係があるが、異なる。
アドホックな略語は生産的にオンザフライで生成されるので、辞書検索だけでは解決できない。
アドホックな略語からなる大規模でオープンソースのデータセットを生成します。
このデータは、短縮戦略の研究と、短縮拡大のための2つの強力なベースラインの開発に使用される。
関連論文リスト
- Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Dealing with Abbreviations in the Slovenian Biographical Lexicon [2.0810096547938164]
省略は、トークン化や語彙外エラーを引き起こすため、NLPシステムにとって大きな課題となる。
そこで本研究では,テキスト中のドメイン固有省略量の高密度化に起因する問題に対処する手法を提案する。
論文 参考訳(メタデータ) (2022-11-04T13:09:02Z) - Token Classification for Disambiguating Medical Abbreviations [0.0]
省略は避けられないが、医療テキストの重要な部分である。
標準化されたマッピングシステムの欠如は、曖昧な省略を困難かつ時間を要するタスクにする。
論文 参考訳(メタデータ) (2022-10-05T18:06:49Z) - ABB-BERT: A BERT model for disambiguating abbreviations and contractions [0.0]
省略や縮小は、様々な領域にわたるテキストで一般的に見られる。
既存のスペル補正モデルは、単語中の文字の減少が多いため、拡張を扱うには適していない。
本稿では,省略や縮約を含むあいまいな言語を扱うBERTモデルであるABB-BERTを提案する。
論文 参考訳(メタデータ) (2022-07-08T16:54:57Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Atypical lexical abbreviations identification in Russian medical texts [0.0]
そこで我々は,ロシア語テキストの省略を識別する,効率的なMLベースのアルゴリズムを提案する。
この方法は、ROC AUCスコア0.926とF1スコア0.706を達成し、競合性が確認された。
論文 参考訳(メタデータ) (2022-06-04T13:16:08Z) - Context-Aware Abbreviation Expansion Using Large Language Models [16.52516727224014]
本稿では,主に単語初期文字としてフレーズを積極的に省略するパラダイムを提案する。
我々のアプローチは、会話コンテキストを活用することで、略語をフルフレーズの選択肢に拡張することである。
論文 参考訳(メタデータ) (2022-05-08T03:02:53Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Counterfactual Interventions Reveal the Causal Effect of Relative Clause
Representations on Agreement Prediction [61.4913233397155]
BERTが言語戦略を用いて合意予測中にRCスパンに関する情報を使用することを示す。
また,特定のRCサブタイプに対して生成された反事実表現が,他のRCサブタイプを含む文の数値予測に影響を及ぼし,RC境界に関する情報がBERTの表現に抽象的に符号化されたことを示唆した。
論文 参考訳(メタデータ) (2021-05-14T17:11:55Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。