論文の概要: Context-Gloss Augmentation for Improving Arabic Target Sense
Verification
- arxiv url: http://arxiv.org/abs/2302.03126v1
- Date: Mon, 6 Feb 2023 21:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:13:34.972750
- Title: Context-Gloss Augmentation for Improving Arabic Target Sense
Verification
- Title(参考訳): アラビア目標センス検証改善のためのコンテキストグロス強化
- Authors: Sanad Malaysha, Mustafa Jarrar, Mohammed Khalilia
- Abstract要約: 最も一般的なアラビア語のセマンティックラベル付きデータセットはアラブ語である。
本稿では,機械のバックトランスレーションを用いて拡張することで,ArabGlossBERTデータセットの強化について述べる。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Arabic language lacks semantic datasets and sense inventories. The most
common semantically-labeled dataset for Arabic is the ArabGlossBERT, a
relatively small dataset that consists of 167K context-gloss pairs (about 60K
positive and 107K negative pairs), collected from Arabic dictionaries. This
paper presents an enrichment to the ArabGlossBERT dataset, by augmenting it
using (Arabic-English-Arabic) machine back-translation. Augmentation increased
the dataset size to 352K pairs (149K positive and 203K negative pairs). We
measure the impact of augmentation using different data configurations to
fine-tune BERT on target sense verification (TSV) task. Overall, the accuracy
ranges between 78% to 84% for different data configurations. Although our
approach performed at par with the baseline, we did observe some improvements
for some POS tags in some experiments. Furthermore, our fine-tuned models are
trained on a larger dataset covering larger vocabulary and contexts. We provide
an in-depth analysis of the accuracy for each part-of-speech (POS).
- Abstract(参考訳): アラビア語には意味的データセットが欠けている。
最も一般的なアラビア語のセマンティックラベル付きデータセットは、アラビア辞書から収集された167Kの文脈グロス対(約60Kの正と107Kの負の対)からなる比較的小さなデータセットである。
本稿では,アラビア・英語・アラビア語)機械のバックトランスレーションを用いて,アラビアグロスBERTデータセットの強化を行った。
データセットサイズを352Kペア(149Kと203Kの負ペア)に拡大した。
我々は、異なるデータ構成を用いて、ターゲットセンス検証(TSV)タスクにBERTを微調整する拡張の影響を計測する。
全体として、異なるデータ構成の精度は78%から84%である。
提案手法はベースラインと同等に動作したが,いくつかの実験ではPOSタグの改善が見られた。
さらに、我々の微調整されたモデルは、より大きな語彙と文脈をカバーするより大きなデータセットで訓練されている。
我々は,各作業部(pos)の精度を詳細に分析する。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Characterizing and Measuring Linguistic Dataset Drift [65.28821163863665]
本稿では,語彙,構造,意味的ドリフトという3次元の言語データセットドリフトを提案する。
これらの次元は、内容語頻度の発散、統語的発散、および単語周波数で捉えない意味の変化に対応している。
ドリフトメトリクスは、ドメイン外モデルの精度を予測する上で、以前のメトリクスよりも効果的であることが分かりました。
論文 参考訳(メタデータ) (2023-05-26T17:50:51Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - Does Manipulating Tokenization Aid Cross-Lingual Transfer? A Study on
POS Tagging for Non-Standardized Languages [18.210880703295253]
3つの異なる家系の7つの言語で事前訓練された言語モデル(PLM)を精査する。
我々は,そのゼロショット性能を,近縁な非標準多様体で解析する。
全体として、ソース内のサブワードに分割される単語の割合とターゲットデータとの類似性が、ターゲットデータ上でのモデル性能の予測に最強であることが判明した。
論文 参考訳(メタデータ) (2023-04-20T08:32:34Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Data Augmentation using Transformers and Similarity Measures for
Improving Arabic Text Classification [0.0]
本稿では,最近の強力なモデリング手法であるAraGPT-2を用いた新しいアラビアDA手法を提案する。
生成された文は、ユークリッド、コサイン、ジャカード、BLEU距離を用いて、文脈、意味、多様性、新規性の観点から評価される。
AraSarcasm, ASTD, ATT, MOVIEの4つの感情アラビアデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-12-28T16:38:43Z) - ArabGlossBERT: Fine-Tuning BERT on Context-Gloss Pairs for WSD [0.0]
本稿では,アラビア語単語センス曖昧化(WSD)のためのBERTモデルについて述べる。
ラベル付きアラビア・コンテクスト・グロス・ペアのデータセットを構築した。
各ペアはTrueまたはFalseとラベル付けされ、各コンテキストのターゲット語が識別され、注釈が付けられた。
論文 参考訳(メタデータ) (2022-05-19T16:47:18Z) - Arabic Offensive Language on Twitter: Analysis and Experiments [9.879488163141813]
トピック,方言,ターゲットに偏らないデータセットを構築する方法を提案する。
我々は、下品さと憎しみのスピーチに特別なタグを付けた、これまでで最大のアラビア語データセットを作成します。
論文 参考訳(メタデータ) (2020-04-05T13:05:11Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。