論文の概要: Data Collection and Analysis of French Dialects
- arxiv url: http://arxiv.org/abs/2208.00752v1
- Date: Mon, 1 Aug 2022 11:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 12:54:39.171278
- Title: Data Collection and Analysis of French Dialects
- Title(参考訳): フランス語方言のデータ収集と分析
- Authors: Omar Shaur Choudhry, Paul Omara Odida, Joshua Reiner, Keiron
Appleyard, Danielle Kushnir and William Toon
- Abstract要約: 本稿では,データマイニングとテキスト分析研究のための新しいデータセットの作成と分析について論じる。
国立方言コーパスのためのリーズ大学共同研究プロジェクトに貢献している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper discusses creating and analysing a new dataset for data mining and
text analytics research, contributing to a joint Leeds University research
project for the Corpus of National Dialects. This report investigates machine
learning classifiers to classify samples of French dialect text across various
French-speaking countries. Following the steps of the CRISP-DM methodology,
this report explores the data collection process, data quality issues and data
conversion for text analysis. Finally, after applying suitable data mining
techniques, the evaluation methods, best overall features and classifiers and
conclusions are discussed.
- Abstract(参考訳): 本稿では,データマイニングとテキスト分析のための新しいデータセットの作成と解析について論じ,国立方言コーパスのためのリーズ大学共同研究プロジェクトに寄与する。
本報告は,様々なフランス語を話す国でフランス語方言のサンプルを分類する機械学習分類器について検討する。
本報告では,CRISP-DM手法の手順に従って,テキスト解析のためのデータ収集プロセス,データ品質問題,データ変換について検討する。
最後に, 適切なデータマイニング手法を適用し, 評価方法, 最良の全体特徴, 分類器, 結論について考察した。
関連論文リスト
- A Systematic Review of Data-to-Text NLG [2.4769539696439677]
高品質なテキストを生成する手法を探索し、テキスト生成における幻覚の課題に対処する。
テキスト品質の進歩にもかかわらず、このレビューは低リソース言語における研究の重要性を強調している。
論文 参考訳(メタデータ) (2024-02-13T14:51:45Z) - Distractor Generation for Multiple-Choice Questions: A Survey of
Methods, Datasets, and Evaluation [21.61684018179074]
本稿では、英語の複数選択質問データセットを用いて、イントラクタ生成タスクを探索する。
データセットの半数以上が、科学や英語のような特定の分野の教育源から人為的に生成される。
論文 参考訳(メタデータ) (2024-02-02T15:53:31Z) - Natural Language Processing for Dialects of a Language: A Survey [59.78833854847185]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Automatic Data Retrieval for Cross Lingual Summarization [4.759360739268894]
言語間の要約では、ある言語で書かれたテキストを別の言語に要約する。
本研究は,英語からヒンディー語への言語間要約を実現することを目的としている。
論文 参考訳(メタデータ) (2023-12-22T09:13:24Z) - FREDSum: A Dialogue Summarization Corpus for French Political Debates [26.76383031532945]
本稿では,多言語対話要約のための資源強化を目的とした,フランスの政治論争のデータセットを提案する。
われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。
論文 参考訳(メタデータ) (2023-12-08T05:42:04Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。