Fugu-MT 論文翻訳(概要): WEKA-Based: Key Features and Classifier for French of Five Countries

論文の概要: WEKA-Based: Key Features and Classifier for French of Five Countries

arxiv url: http://arxiv.org/abs/2212.08132v1
Date: Thu, 10 Nov 2022 10:35:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 19:07:05.960314
Title: WEKA-Based: Key Features and Classifier for French of Five Countries
Title（参考訳）: WEKAをベースとした5カ国フランス語の重要特徴と分類
Authors: Zeqian Li, Keyu Qiu, Chenxu Jiao, Wen Zhu, Haoran Tang
Abstract要約: 本稿では,各地域の方言を適切に区別するフランス語方言認識システムについて述べる。モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、これは大衆生活と密接に関連している。
参考スコア（独自算出の注目度）: 4.704992432252233
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: This paper describes a French dialect recognition system that will appropriately distinguish between different regional French dialects. A corpus of five regions - Monaco, French-speaking, Belgium, French-speaking Switzerland, French-speaking Canada and France, which is targeted forconstruction by the Sketch Engine. The content of the corpus is related to the four themes of eating, drinking, sleeping and living, which are closely linked to popular life. The experimental results were obtained through the processing of a python coded pre-processor and Waikato Environment for Knowledge Analysis (WEKA) data analytic tool which contains many filters and classifiers for machine learning.
Abstract（参考訳）: 本稿では,異なる方言を適切に区別するフランス語方言認識システムについて述べる。モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、大衆生活と密接に関連している。実験結果は,機械学習のための多くのフィルタと分類器を含む,ピソン符号化前処理器とWaikato Environment for Knowledge Analysis (WEKA)データ解析ツールの処理により得られた。

関連論文リスト

Pantagruel: Unified Self-Supervised Encoders for French Text and Speech [44.1950376754309]
我々は、フランス語のテキストと音声のための自己教師型エンコーダモデルの新しいファミリーであるPantagruelモデルをリリースする。テキストトークンや音声単位などのモダリティに適したターゲットを予測する代わりに、Pantagruelは特徴空間におけるコンテキスト化されたターゲット表現を学習する。 Wikipedia、OSCAR、CroissantLLM、MultilingualLibriSpeech、LeBenchmark、INA-100kなど、大規模なフランスのコーパスで事前訓練されている。
論文参考訳（メタデータ） (2026-01-09T16:28:25Z)
A French Version of the OLDI Seed Corpus [20.630120942837564]
WMT 2025オープン言語データイニシアチブ(OLDI)の共通課題であるOLDIシードコーパスのフランスにおける最初の分割について紹介する。複数の機械翻訳システムと、有能なネイティブスピーカーによる後編集のためのカスタムインターフェースを用いた作成プロセスについて詳述する。このフランスのコーパスは、未資源のフランスの地域言語のための並列コーパスの収集を促進するための重要な鍵となる資源として意図されている。
論文参考訳（メタデータ） (2025-08-04T10:57:54Z)
How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文参考訳（メタデータ） (2024-10-18T11:39:34Z)
ViSpeR: Multilingual Audio-Visual Speech Recognition [9.40993779729177]
本研究は,広範に話される5言語を対象とした音声・視覚音声認識について,広範かつ詳細な研究である。我々は、英語以外の言語毎に大規模なデータセットを収集し、教師付き学習モデルの訓練に従事した。我々のモデルであるViSpeRは多言語で訓練されており、結果として各言語で新たに確立されたベンチマーク上での競争性能が向上する。
論文参考訳（メタデータ） (2024-05-27T14:48:51Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。 BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文参考訳（メタデータ） (2023-05-24T08:06:33Z)
FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文参考訳（メタデータ） (2022-12-15T10:32:29Z)
Benchmarking Transformers-based models on French Spoken Language Understanding tasks [4.923118300276026]
我々は、フランス語の2つの音声言語理解タスク(MEDIAとATIS-FR)をトランスフォーマーベースモデルでベンチマークした。コンパクトモデルでは大きなモデルに匹敵する結果が得られるが、生態学的影響は極めて低い。
論文参考訳（メタデータ） (2022-07-19T09:47:08Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
Cross-lingual Machine Reading Comprehension with Language Branch Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。 LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文参考訳（メタデータ） (2020-10-27T13:12:17Z)
A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages [0.0]
モノリンガルな文脈型単語埋め込み(ELMo)を5つの中間リソース言語に対して訓練する。我々はこれらの言語に対するOSCARとウィキペディアベースのELMo埋め込みの性能を音声タグ付けと解析タスクで比較した。我々は、Common-CrawlベースのOSCARデータのノイズにもかかわらず、OSCARでトレーニングされた埋め込みはウィキペディアでトレーニングされたモノリンガル埋め込みよりもはるかに優れていることを示した。
論文参考訳（メタデータ） (2020-06-11T05:25:18Z)
Automatic Discourse Segmentation: an evaluation in French [65.00134288222509]
本稿では, 部分分割法と, 部分分割品質の予備評価について述べる。我々は,マーカーリストと統計POSラベリングという,複数の言語で同時に利用可能なリソースのみに基づく3つのモデルを開発した。
論文参考訳（メタデータ） (2020-02-10T21:35:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。