論文の概要: The Claire French Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2311.16840v1
- Date: Tue, 28 Nov 2023 14:55:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 18:06:05.201832
- Title: The Claire French Dialogue Dataset
- Title(参考訳): クレア・フランスの対話データセット
- Authors: Julie Hunter, J\'er\^ome Louradour, Virgile Rennard, Isma\"il
Harrando, Guokan Shang, Jean-Pierre Lorr\'e
- Abstract要約: 本稿では,CFDDを構成する24個のコーパスについて述べる。
また、提案した完全なCFDDデータセットを8つのサブコーパスに分類し、最終データセットのフォーマットを標準化するためのプロセスを記述する。
- 参考スコア(独自算出の注目度): 9.45456707528025
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the Claire French Dialogue Dataset (CFDD), a resource created by
members of LINAGORA Labs in the context of the OpenLLM France initiative. CFDD
is a corpus containing roughly 160 million words from transcripts and stage
plays in French that we have assembled and publicly released in an effort to
further the development of multilingual, open source language models. This
paper describes the 24 individual corpora of which CFDD is composed and
provides links and citations to their original sources. It also provides our
proposed breakdown of the full CFDD dataset into eight categories of subcorpora
and describes the process we followed to standardize the format of the final
dataset. We conclude with a discussion of similar work and future directions.
- Abstract(参考訳): 我々は,openllm franceイニシアチブの文脈において,linagora labsのメンバーによって作成されたリソースであるclaire french dialogue dataset(cfdd)を提案する。
CFDDはフランス語で書かれた約1億6000万語を収録したコーパスで、多言語でオープンソースの言語モデルの開発をさらに進めるため、私たちが組み立てて公開してきた。
本稿では,CFDDを構成する24個のコーパスについて述べる。
また、提案した完全なCFDDデータセットを8つのサブコーパスに分類し、最終データセットのフォーマットを標準化するためのプロセスを記述する。
我々は同様の仕事と今後の方向性について議論する。
関連論文リスト
- FFSTC: Fongbe to French Speech Translation Corpus [0.0]
Fongbe to French Speech Translation Corpus (FFSTC) を初めて紹介する。
このコーパスには約31時間のフォンベ語の内容が含まれており、フランス語の書き起こしと対応するフォンベの音声記録の両方が収録されている。
論文 参考訳(メタデータ) (2024-03-08T17:53:58Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z) - FFR v1.1: Fon-French Neural Machine Translation [0.012691047660244334]
FFRプロジェクトは、非常に低リソースでトーナルな言語であるFonからフランス語への堅牢な翻訳モデルを作成するための大きなステップである。
本稿では、Fon-to- French翻訳のコーパスであるFFRデータセットを導入し、ダイアクリティカル符号化プロセスを説明し、FFR v1.1モデルを紹介した。
論文 参考訳(メタデータ) (2020-06-14T04:27:12Z) - FQuAD: French Question Answering Dataset [0.4759823735082845]
フランス語質問回答データセット(FQuAD)について紹介する。
FQuADは、ウィキペディアの記事の集合に関する質問と回答のフランス語のNative Readingデータセットである。
テストセット上でF1スコア92.2、正確なマッチング比82.1を達成するベースラインモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-14T15:23:38Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。