論文の概要: CalibreNet: Calibration Networks for Multilingual Sequence Labeling
- arxiv url: http://arxiv.org/abs/2011.05723v1
- Date: Wed, 11 Nov 2020 11:59:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:06:23.537244
- Title: CalibreNet: Calibration Networks for Multilingual Sequence Labeling
- Title(参考訳): CalibreNet: 多言語シーケンスラベリングのためのキャリブレーションネットワーク
- Authors: Shining Liang, Linjun Shou, Jian Pei, Ming Gong, Wanli Zuo, Daxin
Jiang
- Abstract要約: 本稿では,2つのステップで回答を予測するCalibreNetを提案する。
最初のステップでは、任意の既存のシーケンスラベリング手法をベースモデルとして採用して、初期回答を生成する。
2番目のステップでは、CalibreNetは最初の答えの境界を洗練します。
- 参考スコア(独自算出の注目度): 95.36469862612152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lack of training data in low-resource languages presents huge challenges to
sequence labeling tasks such as named entity recognition (NER) and machine
reading comprehension (MRC). One major obstacle is the errors on the boundary
of predicted answers. To tackle this problem, we propose CalibreNet, which
predicts answers in two steps. In the first step, any existing sequence
labeling method can be adopted as a base model to generate an initial answer.
In the second step, CalibreNet refines the boundary of the initial answer. To
tackle the challenge of lack of training data in low-resource languages, we
dedicatedly develop a novel unsupervised phrase boundary recovery pre-training
task to enhance the multilingual boundary detection capability of CalibreNet.
Experiments on two cross-lingual benchmark datasets show that the proposed
approach achieves SOTA results on zero-shot cross-lingual NER and MRC tasks.
- Abstract(参考訳): 低リソース言語におけるトレーニングデータの欠如は、名前付きエンティティ認識(NER)や機械読み取り理解(MRC)といったシーケンスラベリングタスクに大きな課題をもたらす。
一つの大きな障害は、予測された答えの境界の誤差である。
この問題に対処するために,2つのステップで回答を予測するCalibreNetを提案する。
最初のステップでは、既存のシーケンスラベリングメソッドをベースモデルとして採用して、最初の回答を生成する。
第2のステップでは、calibrenetが最初の回答の境界を洗練する。
低リソース言語における訓練データの欠如に対処するために,calibrenetの多言語境界検出能力を向上させるために,教師なし句境界回復事前学習タスクを新たに開発した。
2つの言語間ベンチマークデータセットの実験により、提案手法はゼロショット言語間NERおよびMRCタスクにおいてSOTA結果を達成することを示した。
関連論文リスト
- Contextual Spelling Correction with Language Model for Low-resource Setting [0.0]
文脈理解を伴うSCモデルを提供するために、小規模な単語ベースの変換器LMを訓練する。
コーパスからエラー発生確率(エラーモデル)を抽出する。
LMとエラーモデルを組み合わせることで、よく知られたノイズチャネルフレームワークを通じてSCモデルを開発することができる。
論文 参考訳(メタデータ) (2024-04-28T05:29:35Z) - IDoFew: Intermediate Training Using Dual-Clustering in Language Models
for Few Labels Text Classification [24.11420537250414]
変換器からの双方向表現(BERT)は、自然言語処理(NLP)やテキスト分類を含むテキストマイニングタスクにおいて非常に効果的である。
いくつかのタスクは、制限付きラベル付きテキスト分類など、これらのモデルに依然として課題を生じさせる。
擬似ラベルを確実にモデル化する2段階の中間クラスタリングを開発した。
論文 参考訳(メタデータ) (2024-01-08T17:07:37Z) - ConNER: Consistency Training for Cross-lingual Named Entity Recognition [96.84391089120847]
言語間の名前付きエンティティ認識は、対象言語のデータの不足に悩まされる。
言語間NERのための新しい一貫性トレーニングフレームワークとしてConNERを提案する。
論文 参考訳(メタデータ) (2022-11-17T07:57:54Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - uChecker: Masked Pretrained Language Models as Unsupervised Chinese
Spelling Checkers [23.343006562849126]
そこで我々はtextbfuChecker というフレームワークを提案し,教師なしのスペル検出と修正を行う。
BERTのようなマスキーク事前訓練言語モデルをバックボーンモデルとして導入する。
各種フレキシブルなMASKの操作に特化して,マスク付き言語モデルを微調整するためのコンフュージョンセット誘導マスキング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-15T05:57:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Switch Point biased Self-Training: Re-purposing Pretrained Models for
Code-Switching [44.034300203700234]
コードスイッチングは、多言語コミュニティにおけるコミュニケーションの容易さから、ユビキタスな現象である。
スイッチポイントバイアスを用いて既存の事前学習モデルを再利用するための自己学習手法を提案する。
本手法は,スイッチポイント性能のギャップを小さくすることで,両タスクにおいて良好に機能する。
論文 参考訳(メタデータ) (2021-11-01T19:42:08Z) - BOND: BERT-Assisted Open-Domain Named Entity Recognition with Distant
Supervision [49.42215511723874]
我々は,NERモデルの予測性能を改善するための新しい計算フレームワーク,BONDを提案する。
具体的には,2段階の学習アルゴリズムを提案する。第1段階では,遠隔ラベルを用いて,事前学習された言語モデルをNERタスクに適用する。
第2段階では,遠隔ラベルを廃止し,モデル性能をさらに向上するための自己学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T04:55:39Z) - Enhancing Answer Boundary Detection for Multilingual Machine Reading
Comprehension [86.1617182312817]
そこで我々は,句境界管理を付加するために,微調整段階における2つの補助的タスクを提案する。
混合機械読解タスクは、質問または通過を他の言語に翻訳し、言語横断の問合せペアを構築する。
Webから抽出した知識フレーズを活用する言語に依存しない知識マスキングタスク。
論文 参考訳(メタデータ) (2020-04-29T10:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。