論文の概要: Language Model as an Annotator: Unsupervised Context-aware Quality
Phrase Generation
- arxiv url: http://arxiv.org/abs/2312.17349v1
- Date: Thu, 28 Dec 2023 20:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 14:52:50.141215
- Title: Language Model as an Annotator: Unsupervised Context-aware Quality
Phrase Generation
- Title(参考訳): アノテーションとしての言語モデル:教師なし文脈認識品質フレーズ生成
- Authors: Zhihao Zhang, Yuan Zuo, Chenghua Lin, Junjie Wu
- Abstract要約: LMPhraseは,大規模な事前学習言語モデル(LM)上に構築された,教師なしの高品質なフレーズマイニングフレームワークである。
具体的には,事前学習された言語モデルBERT上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質フレーズを銀ラベルとして抽出する。
一般的な統計ベースや遠方で管理される手法とは対照的に、我々の銀ラベルは、大規模な事前学習言語モデルから派生したもので、LMに含まれる豊富な文脈情報を考慮に入れている。
- 参考スコア(独自算出の注目度): 20.195149109523314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phrase mining is a fundamental text mining task that aims to identify quality
phrases from context. Nevertheless, the scarcity of extensive gold labels
datasets, demanding substantial annotation efforts from experts, renders this
task exceptionally challenging. Furthermore, the emerging, infrequent, and
domain-specific nature of quality phrases presents further challenges in
dealing with this task. In this paper, we propose LMPhrase, a novel
unsupervised context-aware quality phrase mining framework built upon large
pre-trained language models (LMs). Specifically, we first mine quality phrases
as silver labels by employing a parameter-free probing technique called
Perturbed Masking on the pre-trained language model BERT (coined as Annotator).
In contrast to typical statistic-based or distantly-supervised methods, our
silver labels, derived from large pre-trained language models, take into
account rich contextual information contained in the LMs. As a result, they
bring distinct advantages in preserving informativeness, concordance, and
completeness of quality phrases. Secondly, training a discriminative span
prediction model heavily relies on massive annotated data and is likely to face
the risk of overfitting silver labels. Alternatively, we formalize phrase
tagging task as the sequence generation problem by directly fine-tuning on the
Sequence-to-Sequence pre-trained language model BART with silver labels (coined
as Generator). Finally, we merge the quality phrases from both the Annotator
and Generator as the final predictions, considering their complementary nature
and distinct characteristics. Extensive experiments show that our LMPhrase
consistently outperforms all the existing competitors across two different
granularity phrase mining tasks, where each task is tested on two different
domain datasets.
- Abstract(参考訳): フレーズマイニングは、文脈から高品質なフレーズを識別することを目的とした基本的なテキストマイニングタスクである。
しかし、専門家からかなりの注釈を求める大規模なゴールドラベルデータセットの不足は、この課題を極めて困難にしている。
さらに、品質フレーズの新興、低頻度、ドメイン固有の性質は、このタスクを扱う上でさらに課題となる。
本稿では,大規模事前学習型言語モデル(lms)を基盤とした,教師なし文脈認識型品質フレーズマイニングフレームワークであるlmphraseを提案する。
具体的には,事前学習した言語モデルBERT(Annotator)上で,パラメータフリーな探索手法であるPerturbed Maskingを用いて,まず品質語句を銀ラベルとして抽出する。
典型的な統計ベースや遠方教師ありの手法とは対照的に、大きな事前学習された言語モデルから派生した銀のラベルは、lmsに含まれる豊富な文脈情報を考慮している。
結果として、高品質なフレーズの情報性、一致性、完全性を維持する上で、明確な利点をもたらす。
第二に、識別的スパン予測モデルのトレーニングは、大量の注釈付きデータに大きく依存しており、銀のラベルが過剰に適合するリスクに直面する可能性がある。
あるいは、シークエンス・ツー・シークエンス事前訓練言語モデルBARTを銀ラベル(ジェネレータ)で直接微調整することで、フレーズタグ付けタスクをシーケンス生成問題として定式化する。
最後に,アノテータとジェネレータの両方の品質フレーズを最終予測として統合し,それらの相補的性質と特徴を考察する。
我々のLMPhraseは、2つの異なるドメインデータセットで各タスクがテストされる2つの異なる粒度のフレーズマイニングタスクにおいて、既存の競合他社を一貫して上回ります。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Learning to Selectively Learn for Weakly-supervised Paraphrase
Generation [81.65399115750054]
弱監督データを用いた高品質なパラフレーズを生成するための新しい手法を提案する。
具体的には、弱制御されたパラフレーズ生成問題に以下のように取り組む。
検索に基づく擬似パラフレーズ展開により、豊富なラベル付き並列文を得る。
提案手法は,既存の教師なしアプローチよりも大幅に改善され,教師付き最先端技術と同等の性能を示す。
論文 参考訳(メタデータ) (2021-09-25T23:31:13Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Unsupervised Paraphrase Generation using Pre-trained Language Models [0.0]
OpenAIのGPT-2は、流動的で、十分に定式化された、文法的に一貫性のあるテキストを生成する能力で有名である。
我々は、GPT-2のこの生成能力を活用し、ラベル付きデータから何の監督も受けずにパラフレーズを生成する。
実験の結果,我々のモデルで生成したパラフレーズは質が良く,多種多様であり,データ拡張に使用する場合のダウンストリームタスク性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-06-09T19:40:19Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。