論文の概要: UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
- arxiv url: http://arxiv.org/abs/2105.14078v1
- Date: Fri, 28 May 2021 19:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 02:21:02.071088
- Title: UCPhrase: Unsupervised Context-aware Quality Phrase Tagging
- Title(参考訳): UCPhrase:unsupervised Context-aware Quality Phrase Tagging
- Authors: Xiaotao Gu, Zihan Wang, Zhenyu Bi, Yu Meng, Liyuan Liu, Jiawei Han,
Jingbo Shang
- Abstract要約: UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 63.86606855524567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying and understanding quality phrases from context is a fundamental
task in text mining. The most challenging part of this task arguably lies in
uncommon, emerging, and domain-specific phrases. The infrequent nature of these
phrases significantly hurts the performance of phrase mining methods that rely
on sufficient phrase occurrences in the input corpus. Context-aware tagging
models, though not restricted by frequency, heavily rely on domain experts for
either massive sentence-level gold labels or handcrafted gazetteers. In this
work, we propose UCPhrase, a novel unsupervised context-aware quality phrase
tagger. Specifically, we induce high-quality phrase spans as silver labels from
consistently co-occurring word sequences within each document. Compared with
typical context-agnostic distant supervision based on existing knowledge bases
(KBs), our silver labels root deeply in the input domain and context, thus
having unique advantages in preserving contextual completeness and capturing
emerging, out-of-KB phrases. Training a conventional neural tagger based on
silver labels usually faces the risk of overfitting phrase surface names.
Alternatively, we observe that the contextualized attention maps generated from
a transformer-based neural language model effectively reveal the connections
between words in a surface-agnostic way. Therefore, we pair such attention maps
with the silver labels to train a lightweight span prediction model, which can
be applied to new input to recognize (unseen) quality phrases regardless of
their surface names or frequency. Thorough experiments on various tasks and
datasets, including corpus-level phrase ranking, document-level keyphrase
extraction, and sentence-level phrase tagging, demonstrate the superiority of
our design over state-of-the-art pre-trained, unsupervised, and distantly
supervised methods.
- Abstract(参考訳): テキストマイニングでは,コンテキストから品質フレーズを識別し理解することが基本課題である。
このタスクの最も難しい部分は、おそらく、珍しい、新しい、ドメイン固有のフレーズにある。
これらの句の頻度の低い性質は、入力コーパスで十分なフレーズ発生に依存するフレーズマイニング手法の性能を著しく損なう。
文脈対応のタグ付けモデルは、頻度に制限されないが、大量の文レベルの金のラベルや手作りのガゼッタにドメインの専門家に大きく依存している。
本研究では,新しい教師なし文脈認識型文タガー ucphrase を提案する。
具体的には、各文書内の単語列を一貫して共起させることにより、高品質なフレーズを銀ラベルとして表現する。
既存の知識ベース(KB)に基づく一般的な文脈非依存の遠隔監視と比較すると、銀ラベルは入力領域と文脈に深く根付いており、文脈完全性を保ち、出現しないKB句をキャプチャするという点でユニークな利点がある。
銀ラベルに基づく従来のニューラルタグのトレーニングは通常、フレーズ表面の名前が過度に適合するリスクに直面している。
また,トランスフォーマティブ・ニューラル・ランゲージ・モデルから生成された文脈対応アテンション・マップは,単語間の接続を表面非依存的に効果的に明らかにする。
そこで,このような注目マップを銀ラベルと組み合わせて軽量なスパン予測モデルを訓練し,新しい入力に適用して,その表面の名前や頻度に関わらず,(目に見えない)品質フレーズを認識する。
コーパスレベルのフレーズランキング、文書レベルのキーフレーズ抽出、文レベルのフレーズタグ付けなど、さまざまなタスクやデータセットに関する詳細な実験は、最先端の事前訓練、教師なし、遠隔管理手法よりも設計が優れていることを示す。
関連論文リスト
- Language Model as an Annotator: Unsupervised Context-aware Quality
Phrase Generation [20.195149109523314]
LMPhraseは,大規模な事前学習言語モデル(LM)上に構築された,教師なしの高品質なフレーズマイニングフレームワークである。
具体的には,事前学習された言語モデルBERT上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質フレーズを銀ラベルとして抽出する。
一般的な統計ベースや遠方で管理される手法とは対照的に、我々の銀ラベルは、大規模な事前学習言語モデルから派生したもので、LMに含まれる豊富な文脈情報を考慮に入れている。
論文 参考訳(メタデータ) (2023-12-28T20:32:44Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt
Verbalizer for Text Classification [68.3291372168167]
我々は、外部知識を言語化に取り入れることに集中し、知識に富んだプロンプトチューニング(KPT)を形成する。
我々は,外部知識ベース(KB)を用いてラベル語空間を拡張し,拡張されたラベル語空間で予測する前に PLM 自体で拡張されたラベル語空間を洗練する。
ゼロと少数ショットのテキスト分類タスクの実験は、知識のあるプロンプトチューニングの有効性を示す。
論文 参考訳(メタデータ) (2021-08-04T13:00:16Z) - Unsupervised Deep Keyphrase Generation [14.544869226959612]
keyphrase生成は、長い文書を敬語句のコレクションにまとめることを目的としている。
ディープニューラルモデルは、このタスクにおいて顕著な成功を示し、文書から欠落するキーフレーズを予測することができる。
キーフレーズ生成のための新しい手法であるAutoKeyGenについて,人間のアノテーションを介さずに提示する。
論文 参考訳(メタデータ) (2021-04-18T05:53:19Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。