論文の概要: CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic
Languages
- arxiv url: http://arxiv.org/abs/2308.04255v2
- Date: Fri, 11 Aug 2023 15:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 16:01:53.785923
- Title: CLASSLA-Stanza: The Next Step for Linguistic Processing of South Slavic
Languages
- Title(参考訳): CLASSLA-Stanza:南スラヴ語の言語処理の次のステップ
- Authors: Luka Ter\v{c}on, Nikola Ljube\v{s}i\'c
- Abstract要約: CLASSLA-Stanzaは南スラヴ語の自動言語アノテーションのためのパイプラインである。
我々は、Stanzaに対するCLASSLA-Stanzaの主な改善点を説明し、パイプラインの最新2.1リリースのモデルトレーニングプロセスの詳細を説明します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present CLASSLA-Stanza, a pipeline for automatic linguistic annotation of
the South Slavic languages, which is based on the Stanza natural language
processing pipeline. We describe the main improvements in CLASSLA-Stanza with
respect to Stanza, and give a detailed description of the model training
process for the latest 2.1 release of the pipeline. We also report performance
scores produced by the pipeline for different languages and varieties.
CLASSLA-Stanza exhibits consistently high performance across all the supported
languages and outperforms or expands its parent pipeline Stanza at all the
supported tasks. We also present the pipeline's new functionality enabling
efficient processing of web data and the reasons that led to its
implementation.
- Abstract(参考訳): 本稿では,南スラヴ語の自動言語アノテーションのためのパイプラインであるCLASSLA-Stanzaについて述べる。
我々は、Stanzaに対するCLASSLA-Stanzaの主な改善点を説明し、パイプラインの最新2.1リリースのモデルトレーニングプロセスの詳細を説明します。
また、異なる言語や品種のパイプラインによって生成されたパフォーマンススコアも報告する。
CLASSLA-Stanzaは、サポートするすべての言語で一貫して高いパフォーマンスを示し、サポート対象のすべてのタスクにおいて、親パイプラインStanzaをパフォーマンスまたは拡張する。
また、Webデータの効率的な処理を可能にするパイプラインの新機能と、その実装に繋がった理由についても紹介する。
関連論文リスト
- Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Teaching Llama a New Language Through Cross-Lingual Knowledge Transfer [0.7499722271664147]
本研究は,エストニア語に対する言語横断学習と単言語事前学習の併用が与える影響について考察する。
高品質な英語指導からエストニア語への言語間知識の伝達を実演し、コモンセンス推論の改善をもたらす。
ベストモデルである textscLlammas は、エストニア人のための最初のオープンソースの命令フォロー型 LLM である。
論文 参考訳(メタデータ) (2024-04-05T11:52:02Z) - Advancing Hungarian Text Processing with HuSpaCy: Efficient and Accurate
NLP Pipelines [0.0]
本稿では,ハンガリーにおける産業レベルのテキスト処理モデルについて述べる。
モデルはspurCyフレームワークで実装され、HuSpaCyツールキットを拡張した。
すべての実験は再現可能であり、パイプラインはパーミッシブライセンスの下で自由に利用できる。
論文 参考訳(メタデータ) (2023-08-24T08:19:51Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit [0.0]
言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
論文 参考訳(メタデータ) (2022-01-06T07:49:45Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Natural Language Processing Chains Inside a Cross-lingual Event-Centric
Knowledge Pipeline for European Union Under-resourced Languages [0.0]
本稿では、欧州連合言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。
これらのチェーンは、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的とした、イベント中心の知識処理パイプラインの第1ステップの一部です。
論文 参考訳(メタデータ) (2020-10-23T14:26:30Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。