論文の概要: WEKA-Based: Key Features and Classifier for French of Five Countries
- arxiv url: http://arxiv.org/abs/2212.08132v1
- Date: Thu, 10 Nov 2022 10:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 19:07:05.960314
- Title: WEKA-Based: Key Features and Classifier for French of Five Countries
- Title(参考訳): WEKAをベースとした5カ国フランス語の重要特徴と分類
- Authors: Zeqian Li, Keyu Qiu, Chenxu Jiao, Wen Zhu, Haoran Tang
- Abstract要約: 本稿では,各地域の方言を適切に区別するフランス語方言認識システムについて述べる。
モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。
コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、これは大衆生活と密接に関連している。
- 参考スコア(独自算出の注目度): 4.704992432252233
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper describes a French dialect recognition system that will
appropriately distinguish between different regional French dialects. A corpus
of five regions - Monaco, French-speaking, Belgium, French-speaking
Switzerland, French-speaking Canada and France, which is targeted
forconstruction by the Sketch Engine. The content of the corpus is related to
the four themes of eating, drinking, sleeping and living, which are closely
linked to popular life. The experimental results were obtained through the
processing of a python coded pre-processor and Waikato Environment for
Knowledge Analysis (WEKA) data analytic tool which contains many filters and
classifiers for machine learning.
- Abstract(参考訳): 本稿では,異なる方言を適切に区別するフランス語方言認識システムについて述べる。
モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。
コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、大衆生活と密接に関連している。
実験結果は,機械学習のための多くのフィルタと分類器を含む,ピソン符号化前処理器とWaikato Environment for Knowledge Analysis (WEKA)データ解析ツールの処理により得られた。
関連論文リスト
- ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。
我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。
我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T14:48:51Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文 参考訳(メタデータ) (2022-12-15T10:32:29Z) - Benchmarking Transformers-based models on French Spoken Language
Understanding tasks [4.923118300276026]
我々は、フランス語の2つの音声言語理解タスク(MEDIAとATIS-FR)をトランスフォーマーベースモデルでベンチマークした。
コンパクトモデルでは大きなモデルに匹敵する結果が得られるが、生態学的影響は極めて低い。
論文 参考訳(メタデータ) (2022-07-19T09:47:08Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - A Monolingual Approach to Contextualized Word Embeddings for
Mid-Resource Languages [0.0]
モノリンガルな文脈型単語埋め込み(ELMo)を5つの中間リソース言語に対して訓練する。
我々はこれらの言語に対するOSCARとウィキペディアベースのELMo埋め込みの性能を音声タグ付けと解析タスクで比較した。
我々は、Common-CrawlベースのOSCARデータのノイズにもかかわらず、OSCARでトレーニングされた埋め込みはウィキペディアでトレーニングされたモノリンガル埋め込みよりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2020-06-11T05:25:18Z) - Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。
我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文 参考訳(メタデータ) (2020-02-10T21:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。