論文の概要: A French Version of the OLDI Seed Corpus
- arxiv url: http://arxiv.org/abs/2508.02290v1
- Date: Mon, 04 Aug 2025 10:57:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.300691
- Title: A French Version of the OLDI Seed Corpus
- Title(参考訳): OLDIシードコーパスのフランス語版
- Authors: Malik Marmonier, Benoît Sagot, Rachel Bawden,
- Abstract要約: WMT 2025オープン言語データイニシアチブ(OLDI)の共通課題であるOLDIシードコーパスのフランスにおける最初の分割について紹介する。
複数の機械翻訳システムと、有能なネイティブスピーカーによる後編集のためのカスタムインターフェースを用いた作成プロセスについて詳述する。
このフランスのコーパスは、未資源のフランスの地域言語のための並列コーパスの収集を促進するための重要な鍵となる資源として意図されている。
- 参考スコア(独自算出の注目度): 20.630120942837564
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present the first French partition of the OLDI Seed Corpus, our submission to the WMT 2025 Open Language Data Initiative (OLDI) shared task. We detail its creation process, which involved using multiple machine translation systems and a custom-built interface for post-editing by qualified native speakers. We also highlight the unique translation challenges presented by the source data, which combines highly technical, encyclopedic terminology with the stylistic irregularities characteristic of user-generated content taken from Wikipedia. This French corpus is not an end in itself, but is intended as a crucial pivot resource to facilitate the collection of parallel corpora for the under-resourced regional languages of France.
- Abstract(参考訳): WMT 2025オープン言語データイニシアチブ(OLDI)の共通課題であるOLDIシードコーパスのフランスにおける最初の分割について紹介する。
複数の機械翻訳システムと、有能なネイティブスピーカーによる後編集のためのカスタムインターフェースを用いた作成プロセスについて詳述する。
また、ウィキペディアから抽出したユーザ生成コンテンツの特徴となるスタイル上の不規則性と、高度に技術的かつ百科事典的な用語を組み合わせた、ソースデータによって提示されるユニークな翻訳課題についても強調する。
このフランスのコーパスは、それ自体が終わりではなく、フランスの未資源地域言語のための並列コーパスの収集を促進するための重要な鍵となる資源として意図されている。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - The Claire French Dialogue Dataset [9.45456707528025]
本稿では,CFDDを構成する24個のコーパスについて述べる。
また、提案した完全なCFDDデータセットを8つのサブコーパスに分類し、最終データセットのフォーマットを標準化するためのプロセスを記述する。
論文 参考訳(メタデータ) (2023-11-28T14:55:22Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - PENELOPIE: Enabling Open Information Extraction for the Greek Language
through Machine Translation [0.30938904602244344]
EACL 2021 SRWは,高リソース言語と低リソース言語のギャップを埋めることを目的とした方法論である。
我々は、トランスフォーマーアーキテクチャに基づいて、英語からギリシャ語、ギリシャ語への翻訳(nmt)モデルを構築した。
我々はこれらのNMTモデルを利用してギリシア語のテキストの英訳をNLPパイプラインの入力として作成し、一連の前処理と三重抽出タスクを適用した。
論文 参考訳(メタデータ) (2021-03-28T08:01:58Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Natural Language Processing Chains Inside a Cross-lingual Event-Centric
Knowledge Pipeline for European Union Under-resourced Languages [0.0]
本稿では、欧州連合言語のための言語処理チェーンを含むプラットフォームを開発するための戦略について述べる。
これらのチェーンは、ヨーロッパや他の世界に影響を与える可能性のある主要なイベントに関する多言語メディア情報を処理することを目的とした、イベント中心の知識処理パイプラインの第1ステップの一部です。
論文 参考訳(メタデータ) (2020-10-23T14:26:30Z) - Language Guided Networks for Cross-modal Moment Retrieval [66.49445903955777]
モーダルモーダルモーメント検索は、自然言語クエリによって記述された未編集ビデオから時間セグメントをローカライズすることを目的としている。
既存の手法は、ビデオや文の特徴を独立して抽出する。
本稿では,言語ガイドネットワーク(LGN, Language Guided Networks)について紹介する。
論文 参考訳(メタデータ) (2020-06-18T12:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。