論文の概要: Unsupervised Boundary-Aware Language Model Pretraining for Chinese
Sequence Labeling
- arxiv url: http://arxiv.org/abs/2210.15231v1
- Date: Thu, 27 Oct 2022 07:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:44:20.482195
- Title: Unsupervised Boundary-Aware Language Model Pretraining for Chinese
Sequence Labeling
- Title(参考訳): 中国語シークエンスラベリングのための教師なし境界認識言語モデル
- Authors: Peijie Jiang, Dingkun Long, Yanzhao Zhang, Pengjun Xie, Meishan Zhang,
Min Zhang
- Abstract要約: 境界情報は、単語分割、音声タグ付け、名前付きエンティティ認識など、さまざまな中国語処理タスクにおいて重要である。
本稿では,事前学習した言語モデルに直接情報をエンコードするアーキテクチャを提案し,その結果,Bundary-Aware BERT (BABERT) となる。
中国のシークエンスラベリングを10のベンチマークで評価した結果、BABERTはすべてのデータセットに対して一貫した改善を提供することができた。
- 参考スコア(独自算出の注目度): 25.58155857967128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Boundary information is critical for various Chinese language processing
tasks, such as word segmentation, part-of-speech tagging, and named entity
recognition. Previous studies usually resorted to the use of a high-quality
external lexicon, where lexicon items can offer explicit boundary information.
However, to ensure the quality of the lexicon, great human effort is always
necessary, which has been generally ignored. In this work, we suggest
unsupervised statistical boundary information instead, and propose an
architecture to encode the information directly into pre-trained language
models, resulting in Boundary-Aware BERT (BABERT). We apply BABERT for feature
induction of Chinese sequence labeling tasks. Experimental results on ten
benchmarks of Chinese sequence labeling demonstrate that BABERT can provide
consistent improvements on all datasets. In addition, our method can complement
previous supervised lexicon exploration, where further improvements can be
achieved when integrated with external lexicon information.
- Abstract(参考訳): 境界情報は、単語分割、音声タグ付け、名前付きエンティティ認識など、さまざまな中国語処理タスクにおいて重要である。
従来の研究は、レキシコンアイテムが明確な境界情報を提供する高品質な外部レキシコンの使用に頼っていた。
しかし、レキシコンの品質を確保するためには、人間の努力が常に必要であり、一般的に無視されている。
本研究では,教師なしの統計的境界情報を提案するとともに,事前学習された言語モデルに直接情報をエンコードするアーキテクチャを提案する。
BABERTを中国語シーケンスラベリングタスクの特徴誘導に適用する。
中国語の配列ラベリングの10のベンチマークでの実験結果は、babertがすべてのデータセットに対して一貫した改善を提供できることを示している。
さらに,提案手法は,従来の監視型レキシコン探索を補完し,外部レキシコン情報と統合することでさらなる改善を実現することができる。
関連論文リスト
- Chinese Sequence Labeling with Semi-Supervised Boundary-Aware Language Model Pre-training [45.40634271936031]
現在の事前訓練された言語モデルは、境界情報をモデリングプロセスに明示的に組み込むことは滅多にない。
BABERTは、教師なしの統計境界情報を中国のBERTの事前学習目標に組み込んでいる。
本稿では, シンプルかつ効果的な「境界情報メトリクス」について紹介する。
論文 参考訳(メタデータ) (2024-04-08T14:32:52Z) - Constrained Decoding for Cross-lingual Label Projection [27.567195418950966]
ラベル付き学習データを持たない低リソース言語では,多言語 LLM を用いた言語間移動が一般的な学習パラダイムとなっている。
しかし、単語やフレーズの微粒な予測を含むNLPタスクでは、ゼロショットの言語間移動学習は教師付き微調整法よりもはるかに遅れている。
論文 参考訳(メタデータ) (2024-02-05T15:57:32Z) - Do We Need Language-Specific Fact-Checking Models? The Case of Chinese [15.619421104102516]
本稿では,中国語の事例に着目し,言語固有の事実チェックモデルの潜在的なメリットについて検討する。
まず、翻訳に基づく手法と多言語大言語モデルの限界を実証し、言語固有のシステムの必要性を強調した。
文脈情報を組み込んで文書から証拠をよりよく検索できる中国のファクトチェックシステムを提案する。
論文 参考訳(メタデータ) (2024-01-27T20:26:03Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Teach me how to Label: Labeling Functions from Natural Language with
Text-to-text Transformers [0.5330240017302619]
本稿では,自然言語記述をPythonラベリング関数に変換する作業に焦点をあてる。
我々は、事前訓練されたテキスト・トゥ・テキスト・トランスフォーマを用いた意味解析の新しいアプローチに従う。
我々のアプローチは、自然言語でラベルを付ける方法を教えるモデルへの一歩と見なすことができる。
論文 参考訳(メタデータ) (2021-01-18T16:04:15Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。