論文の概要: FreCDo: A Large Corpus for French Cross-Domain Dialect Identification
- arxiv url: http://arxiv.org/abs/2212.07707v1
- Date: Thu, 15 Dec 2022 10:32:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 15:57:52.403351
- Title: FreCDo: A Large Corpus for French Cross-Domain Dialect Identification
- Title(参考訳): FreCDo: フランス横断方言識別のための大規模コーパス
- Authors: Mihaela Gaman, Adrian-Gabriel Chifu, William Domingues, Radu Tudor
Ionescu
- Abstract要約: 本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
- 参考スコア(独自算出の注目度): 22.132457694021184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel corpus for French dialect identification comprising
413,522 French text samples collected from public news websites in Belgium,
Canada, France and Switzerland. To ensure an accurate estimation of the dialect
identification performance of models, we designed the corpus to eliminate
potential biases related to topic, writing style, and publication source. More
precisely, the training, validation and test splits are collected from
different news websites, while searching for different keywords (topics). This
leads to a French cross-domain (FreCDo) dialect identification task. We conduct
experiments with four competitive baselines, a fine-tuned CamemBERT model, an
XGBoost based on fine-tuned CamemBERT features, a Support Vector Machines (SVM)
classifier based on fine-tuned CamemBERT features, and an SVM based on word
n-grams. Aside from presenting quantitative results, we also make an analysis
of the most discriminative features learned by CamemBERT. Our corpus is
available at https://github.com/MihaelaGaman/FreCDo.
- Abstract(参考訳): 本稿では,ベルギー,カナダ,フランス,スイスの公共ニュースサイトから収集した413,522のフランス語テキストサンプルからなる,フランス語方言識別のための新しいコーパスを提案する。
モデルの方言識別性能を精度良く推定するために,トピック,ライティングスタイル,パブリッシングソースに関連する潜在的なバイアスを解消するためにコーパスを設計した。
より正確には、トレーニング、検証、テストの分割は異なるニュースウェブサイトから収集され、異なるキーワード(トピック)が検索される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
我々は、4つの競争ベースライン、細調整CamemBERTモデル、細調整CamemBERT特徴に基づくXGBoost、細調整CamemBERT特徴に基づくサポートベクトルマシン(SVM)分類器、単語n-gramに基づくSVMを用いて実験を行う。
定量的な結果の提示とは別に,CamemBERT が学習した最も識別性の高い特徴についても分析を行った。
私たちのコーパスはhttps://github.com/mihaelagaman/frecdoで利用可能です。
関連論文リスト
- A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - WEKA-Based: Key Features and Classifier for French of Five Countries [4.704992432252233]
本稿では,各地域の方言を適切に区別するフランス語方言認識システムについて述べる。
モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。
コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、これは大衆生活と密接に関連している。
論文 参考訳(メタデータ) (2022-11-10T10:35:34Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language
Models [0.0]
アイスランド語のためのいくつかの言語モデルをトレーニングし、IceBERTは様々なダウンストリームタスクで最先端のパフォーマンスを達成する。
我々は,アイスランドの上位レベルドメイン(TLD)をターゲットとして,高品質なテキストの集合体であるアイスランド・コモン・クローリング・コーパス(IC3)を新たに導入する。
ロー・ミディアム・リソース言語に対するNLPアプリケーションにおいて, クロールしたコーパスを適切に洗浄すれば, 最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-14T18:45:31Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。