論文の概要: Polish Natural Language Inference and Factivity -- an Expert-based
Dataset and Benchmarks
- arxiv url: http://arxiv.org/abs/2201.03521v1
- Date: Mon, 10 Jan 2022 18:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 14:41:39.645539
- Title: Polish Natural Language Inference and Factivity -- an Expert-based
Dataset and Benchmarks
- Title(参考訳): polish natural language inference and factivity - エキスパートベースのデータセットとベンチマーク
- Authors: Daniel Ziembicki, Anna Wr\'oblewska, Karolina Seweryn
- Abstract要約: このデータセットはポーランド語で完全に自然言語の発声を含んでいる。
主動詞の頻度および他の言語的特徴に関する代表的なサンプルである。
入力文のみを消費するBERTベースのモデルは、NLI/factiveの複雑さの大部分を捉えていることを示している。
- 参考スコア(独自算出の注目度): 0.07734726150561087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent breakthroughs in Machine Learning for Natural Language
Processing, the Natural Language Inference (NLI) problems still constitute a
challenge. To this purpose we contribute a new dataset that focuses exclusively
on the factivity phenomenon; however, our task remains the same as other NLI
tasks, i.e. prediction of entailment, contradiction or neutral (ECN). The
dataset contains entirely natural language utterances in Polish and gathers
2,432 verb-complement pairs and 309 unique verbs. The dataset is based on the
National Corpus of Polish (NKJP) and is a representative sample in regards to
frequency of main verbs and other linguistic features (e.g. occurrence of
internal negation). We found that transformer BERT-based models working on
sentences obtained relatively good results ($\approx89\%$ F1 score). Even
though better results were achieved using linguistic features ($\approx91\%$ F1
score), this model requires more human labour (humans in the loop) because
features were prepared manually by expert linguists. BERT-based models
consuming only the input sentences show that they capture most of the
complexity of NLI/factivity. Complex cases in the phenomenon - e.g. cases with
entitlement (E) and non-factive verbs - remain an open issue for further
research.
- Abstract(参考訳): 最近の自然言語処理のための機械学習のブレークスルーにもかかわらず、自然言語推論(NLI)の問題はまだ課題である。
この目的のために、我々は、事実性現象にのみ焦点をあてた新しいデータセットを寄贈するが、我々のタスクは他のNLIタスク、すなわちエンテーメント、矛盾、中立性(ECN)の予測と同じである。
データセットはポーランド語で完全な自然言語発話を含み、2,432の動詞補完対と309の固有動詞を収集する。
このデータセットはNational Corpus of Polish (NKJP)に基づいており、主動詞の頻度やその他の言語的特徴(内部否定の発生など)に関する代表的なサンプルである。
文を扱う変換器BERTベースのモデルでは,比較的良好な結果が得られた(\approx89\%$ F1 score)。
言語学的特徴(==91\%=F1スコア)でより良い結果が得られたが、専門家言語学者によって手作業で作成されるため、このモデルはより人的労働(ループ内の人間)を必要とする。
入力文のみを消費するBERTベースのモデルは、NLI/factiveの複雑さの大部分を捉えていることを示している。
この現象の複雑なケース、例えば、権利(E)と非活動動詞のケースは、さらなる研究のために未解決のままである。
関連論文リスト
- ViANLI: Adversarial Natural Language Inference for Vietnamese [1.907126872483548]
敵NLIデータセットをNLP研究コミュニティに導入し,その名称をViANLIとした。
このデータセットには、10K以上の前提-仮説ペアが含まれている。
テストセットで最も強力なモデルの精度は48.4%にしか達しなかった。
論文 参考訳(メタデータ) (2024-06-25T16:58:19Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - ArNLI: Arabic Natural Language Inference for Entailment and
Contradiction Detection [1.8275108630751844]
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用い,アラビア語における文対の矛盾を検出する手法を提案する。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。
論文 参考訳(メタデータ) (2022-09-28T09:37:16Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - NL-Augmenter: A Framework for Task-Sensitive Natural Language
Augmentation [91.97706178867439]
提案するNL-Augmenterは,Pythonベースの自然言語拡張フレームワークである。
このフレームワークと117の変換と23のフィルタを、さまざまな自然言語タスクに対して記述する。
我々は,NL-Augmenterの有効性を,NL-Augmenterの変換を用いて検証し,自然言語モデルのロバスト性を解析した。
論文 参考訳(メタデータ) (2021-12-06T00:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。