論文の概要: A Catalog of Basque Dialectal Resources: Online Collections and Standard-to-Dialectal Adaptations
- arxiv url: http://arxiv.org/abs/2603.25189v1
- Date: Thu, 26 Mar 2026 08:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.19796
- Title: A Catalog of Basque Dialectal Resources: Online Collections and Standard-to-Dialectal Adaptations
- Title(参考訳): バスク方言資源のカタログ:オンラインコレクションと標準辞書適応
- Authors: Jaione Bengoetxea, Itziar Gonzalez-Dios, Rodrigo Agerri,
- Abstract要約: 本稿では,現代バスク語の方言データと資源のカタログについて述べる。
もともとは方言で書かれていたオンラインデータと、標準から標準への適応データである。
- 参考スコア(独自算出の注目度): 10.575017227616124
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent research on dialectal NLP has identified data scarcity as a primary limitation. To address this limitation, this paper presents a catalog of contemporary Basque dialectal data and resources, offering a systematic and comprehensive compilation of the dialectal data currently available in Basque. Two types of data sources have been distinguished: online data originally written in some dialect, and standard-to-dialect adapted data. The former includes all dialectal data that can be found online, such as news and radio sites, informal tweets, as well as online resources such as dictionaries, atlases, grammar rules, or videos. The latter consists of data that has been adapted from the standard variety to dialectal varieties, either manually or automatically. Regarding the manual adaptation, the test split of the XNLI Natural Language Inference dataset was manually adapted into three Basque dialects: Western, Central, and Navarrese-Lapurdian, yielding a high-quality parallel gold standard evaluation dataset. With respect to the automatic dialectal adaptation, the automatically adapted physical commonsense dataset (BasPhyCowest) underwent additional manual evaluation by native speakers to assess its quality and determine whether it could serve as a viable substitute for full manual adaptation (i.e., silver data creation).
- Abstract(参考訳): 弁証的NLPに関する最近の研究は、データの不足を主要な限界として挙げている。
この制限に対処するため,現代バスクの方言データと資源のカタログを提示し,現在バスクで利用可能な方言データの体系的かつ包括的なコンパイルを提供する。
もともとは方言で書かれていたオンラインデータと、標準から標準への適応データである。
前者は、ニュースやラジオサイト、非公式のつぶやき、辞書、アトラス、文法規則、ビデオなどのオンラインリソースなど、オンラインで見られるすべての方言データを含んでいる。
後者は、手動または自動で、標準品種から方言品種に適応したデータで構成されている。
手動による適応に関して、XNLI自然言語推論データセットのテスト分割は、3つのバスク方言(Western、Central、Navarrese-Lapurdian)に手動で適応され、高品質の並列ゴールド標準評価データセットが得られた。
自動方言適応に関して、自動適応された物理コモンセンスデータセット(BasPhyCowest)は、その品質を評価し、それが完全な手動適応(すなわち銀のデータ生成)の代替となるかどうかを決定するために、ネイティブスピーカーによって追加のマニュアル評価を受けた。
関連論文リスト
- Lost in Variation? Evaluating NLI Performance in Basque and Spanish Geographical Variants [7.160574787275442]
バスク語とスペイン語の変種を理解するための現在の言語技術の能力を評価する。
我々は、自然言語推論(NLI)をピボットタスクとして使用し、手動で計算した新しい並列データセットを導入します。
論文 参考訳(メタデータ) (2025-06-18T08:20:19Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - A Dataset for Plain Language Adaptation of Biomedical Abstracts [15.192291280727073]
このデータセットは、文書と文の整合性を持った最初の手動適応データセットである。
データセットを記述するとともに、最新のDeep Learningアプローチでデータセットの自動適応をベンチマークします。
論文 参考訳(メタデータ) (2022-10-21T20:47:34Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。