Fugu-MT 論文翻訳(概要): Data Collection and Analysis of French Dialects

論文の概要: Data Collection and Analysis of French Dialects

arxiv url: http://arxiv.org/abs/2208.00752v1
Date: Mon, 1 Aug 2022 11:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-02 12:54:39.171278
Title: Data Collection and Analysis of French Dialects
Title（参考訳）: フランス語方言のデータ収集と分析
Authors: Omar Shaur Choudhry, Paul Omara Odida, Joshua Reiner, Keiron Appleyard, Danielle Kushnir and William Toon
Abstract要約: 本稿では,データマイニングとテキスト分析研究のための新しいデータセットの作成と分析について論じる。国立方言コーパスのためのリーズ大学共同研究プロジェクトに貢献している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper discusses creating and analysing a new dataset for data mining and text analytics research, contributing to a joint Leeds University research project for the Corpus of National Dialects. This report investigates machine learning classifiers to classify samples of French dialect text across various French-speaking countries. Following the steps of the CRISP-DM methodology, this report explores the data collection process, data quality issues and data conversion for text analysis. Finally, after applying suitable data mining techniques, the evaluation methods, best overall features and classifiers and conclusions are discussed.
Abstract（参考訳）: 本稿では,データマイニングとテキスト分析のための新しいデータセットの作成と解析について論じ,国立方言コーパスのためのリーズ大学共同研究プロジェクトに寄与する。本報告は,様々なフランス語を話す国でフランス語方言のサンプルを分類する機械学習分類器について検討する。本報告では,CRISP-DM手法の手順に従って,テキスト解析のためのデータ収集プロセス,データ品質問題,データ変換について検討する。最後に, 適切なデータマイニング手法を適用し, 評価方法, 最良の全体特徴, 分類器, 結論について考察した。

関連論文リスト

BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages [4.279942349440352]
Indic言語のための合成多言語事前学習データの生成と評価に関する体系的研究を行う。大規模な合成データセットBhashaKritikaを構築し,10言語で5つの異なる手法を用いて540Bトークンを構成する。我々は、プロンプト命令と文書のグラウンド化の両方において、言語選択がデータ品質にどのように影響するかを分析する。
論文参考訳（メタデータ） (2025-11-13T14:12:44Z)
Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文参考訳（メタデータ） (2024-05-31T07:51:19Z)
A Survey of Multimodal Large Language Model from A Data-centric Perspective [46.57232264950785]
マルチモーダル大言語モデル(MLLM)は、複数のモーダルからのデータの統合と処理によって、標準的な大言語モデルの能力を高める。データはこれらのモデルの開発と改良において重要な役割を担います。
論文参考訳（メタデータ） (2024-05-26T17:31:21Z)
Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文参考訳（メタデータ） (2024-04-09T11:39:53Z)
A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文参考訳（メタデータ） (2024-02-13T14:51:45Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文参考訳（メタデータ） (2023-12-22T09:13:24Z)
FREDSum: A Dialogue Summarization Corpus for French Political Debates [26.76383031532945]
本稿では,多言語対話要約のための資源強化を目的とした,フランスの政治論争のデータセットを提案する。われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。
論文参考訳（メタデータ） (2023-12-08T05:42:04Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文参考訳（メタデータ） (2022-02-19T11:55:40Z)
WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文参考訳（メタデータ） (2020-10-07T00:28:05Z)
A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文参考訳（メタデータ） (2020-08-02T00:09:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。