論文の概要: DaCy: A Unified Framework for Danish NLP
- arxiv url: http://arxiv.org/abs/2107.05295v1
- Date: Mon, 12 Jul 2021 10:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:18:15.977186
- Title: DaCy: A Unified Framework for Danish NLP
- Title(参考訳): DaCy: デンマークのNLPのための統一フレームワーク
- Authors: Kenneth Enevoldsen, Lasse Hansen, Kristoffer Nielbo
- Abstract要約: DaCy: SpaCy上に構築されたデンマークNLPの統一フレームワークについて紹介する。
DaCyは、名前付きエンティティ認識、部分音声タグ付け、依存性解析で最先端のパフォーマンスを得る効率的なモデルを使用する。
デンマークのNLPパイプラインのバイアスとロバスト性に関する一連のテストは、DaNEのテストセットを拡張して実施する。
- 参考スコア(独自算出の注目度): 1.2891210250935146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Danish natural language processing (NLP) has in recent years obtained
considerable improvements with the addition of multiple new datasets and
models. However, at present, there is no coherent framework for applying
state-of-the-art models for Danish. We present DaCy: a unified framework for
Danish NLP built on SpaCy. DaCy uses efficient multitask models which obtain
state-of-the-art performance on named entity recognition, part-of-speech
tagging, and dependency parsing. DaCy contains tools for easy integration of
existing models such as for polarity, emotion, or subjectivity detection. In
addition, we conduct a series of tests for biases and robustness of Danish NLP
pipelines through augmentation of the test set of DaNE. DaCy large compares
favorably and is especially robust to long input lengths and spelling
variations and errors. All models except DaCy large display significant biases
related to ethnicity while only Polyglot shows a significant gender bias. We
argue that for languages with limited benchmark sets, data augmentation can be
particularly useful for obtaining more realistic and fine-grained performance
estimates. We provide a series of augmenters as a first step towards a more
thorough evaluation of language models for low and medium resource languages
and encourage further development.
- Abstract(参考訳): デンマークの自然言語処理(NLP)は近年、複数の新しいデータセットとモデルを追加して大幅に改善されている。
しかし、現在デンマークに最先端のモデルを適用するためのコヒーレントな枠組みは存在しない。
DaCy: SpaCy上に構築されたデンマークNLPの統一フレームワークについて紹介する。
DaCyは効率的なマルチタスクモデルを使用し、名前付きエンティティ認識、音声タグ付け、依存性解析で最先端のパフォーマンスを得る。
DaCyには、極性、感情、主観的検出など、既存のモデルを簡単に統合するためのツールが含まれている。
さらに,デンマークのNLPパイプラインのバイアスとロバスト性に関する一連の試験を,DaNEのテストセットの増大を通じて実施する。
DaCy Largeは、長い入力長とスペルのバリエーションとエラーに対して特に堅牢である。
DaCyを除くすべてのモデルは、民族に関する大きなバイアスを示すが、Polyglotだけが大きなバイアスを示す。
ベンチマークセットが限られている言語の場合、データ拡張はよりリアルできめ細かいパフォーマンス推定を得るのに特に有用である。
中小規模の資源言語のための言語モデルのより詳細な評価に向けた第一歩として,一連の拡張子を提供し,さらなる開発を促進する。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。