論文の概要: Chinese Sequence Labeling with Semi-Supervised Boundary-Aware Language Model Pre-training
- arxiv url: http://arxiv.org/abs/2404.05560v1
- Date: Mon, 8 Apr 2024 14:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 14:05:34.612916
- Title: Chinese Sequence Labeling with Semi-Supervised Boundary-Aware Language Model Pre-training
- Title(参考訳): 半教師付き境界対応言語モデル事前学習による中国語シーケンスラベリング
- Authors: Longhui Zhang, Dingkun Long, Meishan Zhang, Yanzhao Zhang, Pengjun Xie, Min Zhang,
- Abstract要約: 現在の事前訓練された言語モデルは、境界情報をモデリングプロセスに明示的に組み込むことは滅多にない。
BABERTは、教師なしの統計境界情報を中国のBERTの事前学習目標に組み込んでいる。
本稿では, シンプルかつ効果的な「境界情報メトリクス」について紹介する。
- 参考スコア(独自算出の注目度): 45.40634271936031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese sequence labeling tasks are heavily reliant on accurate word boundary demarcation. Although current pre-trained language models (PLMs) have achieved substantial gains on these tasks, they rarely explicitly incorporate boundary information into the modeling process. An exception to this is BABERT, which incorporates unsupervised statistical boundary information into Chinese BERT's pre-training objectives. Building upon this approach, we input supervised high-quality boundary information to enhance BABERT's learning, developing a semi-supervised boundary-aware PLM. To assess PLMs' ability to encode boundaries, we introduce a novel ``Boundary Information Metric'' that is both simple and effective. This metric allows comparison of different PLMs without task-specific fine-tuning. Experimental results on Chinese sequence labeling datasets demonstrate that the improved BABERT variant outperforms the vanilla version, not only on these tasks but also more broadly across a range of Chinese natural language understanding tasks. Additionally, our proposed metric offers a convenient and accurate means of evaluating PLMs' boundary awareness.
- Abstract(参考訳): 中国語のシークエンスラベリングタスクは、正確な単語境界の区切りに大きく依存している。
現在のプレトレーニング言語モデル(PLM)は、これらのタスクにおいて大きな成果を上げているが、境界情報をモデリングプロセスに明示的に組み込むことは滅多にない。
例外としてBABERTは、教師なしの統計境界情報を中国のBERTの事前学習目的に組み込んでいる。
このアプローチに基づいて、BABERTの学習を強化するために教師付き境界情報を入力し、半教師付き境界対応PLMを開発する。
PLMが境界をエンコードする能力を評価するために, シンプルかつ効果的に機能する新しい「境界情報メトリクス」を導入する。
このメトリクスは、タスク固有の微調整なしで異なるPLMの比較を可能にする。
中国のシークエンスラベリングデータセットの実験結果から、改良されたBABERTは、これらのタスクだけでなく、より広範囲の中国語の自然言語理解タスクにおいて、バニラバージョンよりも優れていることが示された。
さらに,提案手法は PLM の境界認識を簡便かつ高精度に評価する手段を提供する。
関連論文リスト
- End-to-end Planner Training for Language Modeling [22.555504014437915]
言語モデリングを強化するための成功したアプローチは、将来の文の抽象ラベルを予測するために別個の計画モジュールを使用する。
本研究では,プランナーとLMの協調微調整を可能とし,この手法を効果的に改善する手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:14:29Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - Unsupervised Boundary-Aware Language Model Pretraining for Chinese
Sequence Labeling [25.58155857967128]
境界情報は、単語分割、音声タグ付け、名前付きエンティティ認識など、さまざまな中国語処理タスクにおいて重要である。
本稿では,事前学習した言語モデルに直接情報をエンコードするアーキテクチャを提案し,その結果,Bundary-Aware BERT (BABERT) となる。
中国のシークエンスラベリングを10のベンチマークで評価した結果、BABERTはすべてのデータセットに対して一貫した改善を提供することができた。
論文 参考訳(メタデータ) (2022-10-27T07:38:50Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning [19.682704309037653]
Masked Language Model (MLM) は自然言語理解の分野に革命をもたらした。
TaCL(Token-aware Contrastive Learning)は,BERTがトークン表現の等方的,差別的な分布を学習することを奨励する,新たな事前学習手法である。
論文 参考訳(メタデータ) (2021-11-07T22:54:23Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。