論文の概要: ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD
- arxiv url: http://arxiv.org/abs/2205.09685v1
- Date: Thu, 19 May 2022 16:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 16:18:19.823153
- Title: ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD
- Title(参考訳): ArabGlossBERT:WSD用コンテキストグロスペアの細調整BERT
- Authors: Moustafa Al-Hajj, Mustafa Jarrar
- Abstract要約: 本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルについて述べる。
ラベル付きアラビア・コンテクスト・グロス・ペアのデータセットを構築した。
各ペアはTrueまたはFalseとラベル付けされ、各コンテキストのターゲット語が識別され、注釈が付けられた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using pre-trained transformer models such as BERT has proven to be effective
in many NLP tasks. This paper presents our work to fine-tune BERT models for
Arabic Word Sense Disambiguation (WSD). We treated the WSD task as a
sentence-pair binary classification task. First, we constructed a dataset of
labeled Arabic context-gloss pairs (~167k pairs) we extracted from the Arabic
Ontology and the large lexicographic database available at Birzeit University.
Each pair was labeled as True or False and target words in each context were
identified and annotated. Second, we used this dataset for fine-tuning three
pre-trained Arabic BERT models. Third, we experimented the use of different
supervised signals used to emphasize target words in context. Our experiments
achieved promising results (accuracy of 84%) although we used a large set of
senses in the experiment.
- Abstract(参考訳): BERTのような事前訓練されたトランスフォーマーモデルを使用することは多くのNLPタスクに有効であることが証明されている。
本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルを微調整する。
我々はWSDタスクを文対二項分類タスクとして扱った。
まず,アラビアオントロジーから抽出したラベル付きアラビア・コンテクスト・グロス対(約167kペア)と,バージット大学で利用可能な大型語彙データベースを構築した。
各ペアはtrueあるいはfalseとラベル付けされ、各コンテキスト内のターゲットワードが識別され、注釈付けされた。
次に、このデータセットを用いて、事前訓練された3つのアラビアBERTモデルを微調整した。
第3に,対象単語の文脈強調に用いた教師あり信号の使用実験を行った。
実験では有望な結果(精度84%)を得たが,実験では多数の感覚を用いた。
関連論文リスト
- MemeMind at ArAIEval Shared Task: Spotting Persuasive Spans in Arabic Text with Persuasion Techniques Identification [0.10120650818458249]
本稿では,ツイートやニュース段落からアラビア語テキスト中の伝搬的スパンと説得技術を検出することに焦点を当てる。
提案手法はF1スコア0.2774を達成し,タスク1のリーダーボードにおける第3位を確保した。
論文 参考訳(メタデータ) (2024-08-08T15:49:01Z) - A Novel Two-Step Fine-Tuning Pipeline for Cold-Start Active Learning in Text Classification Tasks [7.72751543977484]
本研究は, 寒冷開始シナリオにおけるアクティブラーニング(AL)タスクにおけるBERTベースのコンテキスト埋め込みの有効性について検討する。
私たちの主な貢献は、より堅牢な微調整パイプラインであるDoTCALの提案です。
本評価では,Bag of Words (BoW), Latent Semantic Indexing (LSI), FastTextなど,BERTベースの埋め込みと他の一般的なテキスト表現パラダイムとの対比を行った。
論文 参考訳(メタデータ) (2024-07-24T13:50:21Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Arabic aspect based sentiment analysis using BERT [0.0]
本稿では、BERTのような事前訓練された言語モデルからのコンテキスト埋め込みのモデリング機能について述べる。
我々は、このタスクに対処するために、シンプルだが効果的なBERTベースの神経ベースラインを構築しています。
実験結果によると, 単純な線形分類層を持つBERTアーキテクチャは, 最先端の成果を上回った。
論文 参考訳(メタデータ) (2021-07-28T11:34:00Z) - Using BERT Encoding to Tackle the Mad-lib Attack in SMS Spam Detection [0.0]
GoogleのBERTのような単語の意味や文脈に敏感な言語モデルが、この敵対的攻撃を克服するのに有用かどうかを検討する。
5572のSMSスパムメッセージのデータセットを用いて,まず検出性能の基準を確立した。
そして、これらのメッセージに含まれる語彙のシソーラスを構築し、Mad-lib攻撃実験をセットアップした。
その結果、従来のモデルは元のデータセットで94%のバランス精度(BA)を達成したのに対し、BERTモデルは96%を得た。
論文 参考訳(メタデータ) (2021-07-13T21:17:57Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Does Chinese BERT Encode Word Structure? [17.836131968160917]
文脈化された表現は、幅広いNLPタスクに対して大幅に改善された結果を与える。
BERTのような代表モデルによってキャプチャされた特徴を分析するために、多くの作業が費やされている。
本研究では,(1)単語情報がBERTによって取得されること,(2)単語レベルの特徴が主に中間表現層にあること,(3)下流タスクがBERTの単語特徴を異なる用途で利用すること,の2つを用いて中国語のBERTを調査する。
論文 参考訳(メタデータ) (2020-10-15T12:40:56Z) - Syntactic Structure Distillation Pretraining For Bidirectional Encoders [49.483357228441434]
本稿では,BERTプレトレーニングに構文バイアスを注入するための知識蒸留手法を提案する。
我々は,構文的 LM から単語の周辺分布を抽出する。
本研究は,大量のデータを利用する表現学習者においても,構文バイアスの利点を示すものである。
論文 参考訳(メタデータ) (2020-05-27T16:44:01Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。