論文の概要: ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection
- arxiv url: http://arxiv.org/abs/2209.13953v1
- Date: Wed, 28 Sep 2022 09:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:54:20.291140
- Title: ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection
- Title(参考訳): arnli: 帰結と矛盾検出のためのアラビア語自然言語推論
- Authors: Khloud Al Jallad, Nada Ghneim
- Abstract要約: われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用い,アラビア語における文対の矛盾を検出する手法を提案する。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Natural Language Inference (NLI) is a hot topic research in natural language
processing, contradiction detection between sentences is a special case of NLI.
This is considered a difficult NLP task which has a big influence when added as
a component in many NLP applications, such as Question Answering Systems, text
Summarization. Arabic Language is one of the most challenging low-resources
languages in detecting contradictions due to its rich lexical, semantics
ambiguity. We have created a data set of more than 12k sentences and named
ArNLI, that will be publicly available. Moreover, we have applied a new model
inspired by Stanford contradiction detection proposed solutions on English
language. We proposed an approach to detect contradictions between pairs of
sentences in Arabic language using contradiction vector combined with language
model vector as an input to machine learning model. We analyzed results of
different traditional machine learning classifiers and compared their results
on our created data set (ArNLI) and on an automatic translation of both PHEME,
SICK English data sets. Best results achieved using Random Forest classifier
with an accuracy of 99%, 60%, 75% on PHEME, SICK and ArNLI respectively.
- Abstract(参考訳): 自然言語推論(NLI)は自然言語処理におけるホットトピック研究であり、文間の矛盾検出はNLIの特別な場合である。
これは、質問応答システム、テキスト要約など、多くのNLPアプリケーションでコンポーネントとして追加されたときに大きな影響を与える難しいNLPタスクであると考えられている。
アラビア語は、語彙の豊富な意味論的曖昧さから矛盾を検出する上で、最も難しい低資源言語の一つである。
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
さらに, スタンフォード矛盾検出に触発された新しいモデルを適用し, 提案手法を英語に適用した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用いて,アラビア語の文対の矛盾を検出する手法を提案する。
我々は、従来の機械学習分類器の結果を分析し、作成したデータセット(ArNLI)とPHEMEとSICKの英語データセットの自動翻訳結果を比較した。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
関連論文リスト
- Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Pretrained Models for Multilingual Federated Learning [38.19507070702635]
我々は,多言語テキストがフェデレートラーニング(FL)アルゴリズムに与える影響について検討する。
3つの多言語言語タスク、言語モデリング、機械翻訳、テキスト分類について検討する。
以上の結果から,事前学習モデルを用いることでFLの負の効果を低減し,集中学習(プライバシなし)よりも高い性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T00:20:30Z) - Polish Natural Language Inference and Factivity -- an Expert-based
Dataset and Benchmarks [0.07734726150561087]
このデータセットはポーランド語で完全に自然言語の発声を含んでいる。
主動詞の頻度および他の言語的特徴に関する代表的なサンプルである。
入力文のみを消費するBERTベースのモデルは、NLI/factiveの複雑さの大部分を捉えていることを示している。
論文 参考訳(メタデータ) (2022-01-10T18:32:55Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Combining Context-Free and Contextualized Representations for Arabic
Sarcasm Detection and Sentiment Identification [0.0]
本論文では,SPPU-AASM チームによる WANLP ArSarcasm shared-task 2021 の提出を示唆する。
提案方式は, 皮肉および感情検出タスクに対して, F1-sarcastic score の 0.62 と F-PN score の 0.715 をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-03-09T19:39:43Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。