論文の概要: EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-Switching
- arxiv url: http://arxiv.org/abs/2502.03188v1
- Date: Wed, 05 Feb 2025 14:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:28:57.312712
- Title: EuskañolDS: A Naturally Sourced Corpus for Basque-Spanish Code-Switching
- Title(参考訳): EuskañolDS: バスク・スペインのコードスイッチングのための自然にソースされたコーパス
- Authors: Maite Heredia, Jeremy Barnes, Aitor Soroa,
- Abstract要約: バスク語とスペイン語のコードスイッチングのための自然ソースコーパスを開発するための最初のアプローチを提案する。
提案手法は,すでに利用可能なコーパスからCSテキストを識別する言語識別モデルを用いて構成する。
コーパスの特性を提示し、EuskanolDSという名前で利用できるようにする。
- 参考スコア(独自算出の注目度): 15.839595122482196
- License:
- Abstract: Code-switching (CS) remains a significant challenge in Natural Language Processing (NLP), mainly due a lack of relevant data. In the context of the contact between the Basque and Spanish languages in the north of the Iberian Peninsula, CS frequently occurs in both formal and informal spontaneous interactions. However, resources to analyse this phenomenon and support the development and evaluation of models capable of understanding and generating code-switched language for this language pair are almost non-existent. We introduce a first approach to develop a naturally sourced corpus for Basque-Spanish code-switching. Our methodology consists of identifying CS texts from previously available corpora using language identification models, which are then manually validated to obtain a reliable subset of CS instances. We present the properties of our corpus and make it available under the name Euska\~nolDS.
- Abstract(参考訳): コードスイッチング(CS)は、主に関連するデータが不足しているため、自然言語処理(NLP)において依然として重要な課題である。
イベリア半島北部のバスク語とスペイン語の接触の文脈では、CSは形式的および非公式な自発的な相互作用の両方で頻繁に発生する。
しかし、この現象を分析し、この言語ペアのためのコード変更言語を理解し、生成できるモデルの開発と評価を支援するリソースはほとんど存在しない。
バスク語とスペイン語のコードスイッチングのための自然ソースコーパスを開発するための最初のアプローチを提案する。
提案手法は,すでに利用可能なコーパスからCSテキストを識別する言語識別モデルを用いて,CSインスタンスの信頼性サブセットを取得するために手作業による検証を行う。
コーパスの特性を示し、Euska\~nolDSという名前で利用できるようにする。
関連論文リスト
- Predictability and Causality in Spanish and English Natural Language Generation [6.817247544942709]
本稿では,英語とスペイン語の因果関係と非因果関係を比較検討する。
この実験によると、スペイン語は非因果関係から英語よりも予測可能である。
これらの知見は、双方向トランスフォーマー言語モデルを用いたスペイン語におけるNLGのさらなる研究を支援する。
論文 参考訳(メタデータ) (2024-08-26T14:09:28Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Spanish Resource Grammar version 2023 [12.009437358109407]
スペイン資源文法(SRG)の最新バージョンについて紹介する。
このような文法は、文法に関する複雑な仮説の集合を符号化し、言語理論の実証的なテストのリソースとなる。
SRGのこのバージョンは、最新のFreeling形態を使っており、自動生成され、手動で検証された2,291文のツリーバンクと共にリリースされている。
論文 参考訳(メタデータ) (2023-09-23T09:24:05Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Constructing a Family Tree of Ten Indo-European Languages with
Delexicalized Cross-linguistic Transfer Patterns [57.86480614673034]
我々は,デレクシカル化転送を,解釈可能なツリー・ツー・ストリングパターンとツリー・ツー・ツリーパターンとして定式化する。
これにより、言語間移動を定量的に探索し、第二言語習得の問い合わせを拡張することができる。
論文 参考訳(メタデータ) (2020-07-17T15:56:54Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。