論文の概要: Icelandic Parallel Abstracts Corpus
- arxiv url: http://arxiv.org/abs/2108.05289v1
- Date: Wed, 11 Aug 2021 15:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 14:45:42.775796
- Title: Icelandic Parallel Abstracts Corpus
- Title(参考訳): アイスランド並列抽象コーパス
- Authors: Haukur Barri S\'imonarson and V\'esteinn Sn{\ae}bjarnarson
- Abstract要約: アイスランドのパラレル抽象コーパス(IPAC)を新たに発表した。
それらのテキストは、アイスランドの大学の学生のすべての記録、論文、最終プロジェクトを保持するSkemmanリポジトリから収集された。
コーパスは、Bleualignを用いたNMTモデルから、両方の翻訳方向の文レベルBLEUスコアに基づいて整列された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new Icelandic-English parallel corpus, the Icelandic Parallel
Abstracts Corpus (IPAC), composed of abstracts from student theses and
dissertations. The texts were collected from the Skemman repository which keeps
records of all theses, dissertations and final projects from students at
Icelandic universities. The corpus was aligned based on sentence-level BLEU
scores, in both translation directions, from NMT models using Bleualign. The
result is a corpus of 64k sentence pairs from over 6 thousand parallel
abstracts.
- Abstract(参考訳): アイスランド語と英語の並列コーパスであるアイスランド・パラレル・抽象コーパス(IPAC)を,学生の論文や論文から要約して紹介する。
それらのテキストは、アイスランドの大学の学生のすべての記録、論文、最終プロジェクトを保持するSkemmanリポジトリから収集された。
コーパスは、Bleualignを用いたNMTモデルから両方の翻訳方向の文レベルBLEUスコアに基づいて整列された。
その結果、6万以上の並列抽象文から64kの文ペアのコーパスが得られる。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Improving Machine Translation with Phrase Pair Injection and Corpus
Filtering [36.9886023078247]
本稿では,Phrase Pair Injection と Corpus Filtering を組み合わせることで,ニューラルネットワーク翻訳(NMT)システムの性能が向上することを示す。
擬似並列コーパスからパラレルフレーズと文を抽出し,それを並列コーパスで拡張し,NMTモデルを訓練する。
論文 参考訳(メタデータ) (2023-01-19T11:27:56Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - EAG: Extract and Generate Multi-way Aligned Corpus for Complete Multi-lingual Neural Machine Translation [63.88541605363555]
EAG(Extract and Generate)は,バイリンガルデータから大規模かつ高品質なマルチウェイアライメントコーパスを構築するための2段階のアプローチである。
まず、異なる言語対から、非常に類似したソースやターゲット文を持つバイリンガルな例をペアリングして、候補に整列した例を抽出する。
次に、よく訓練された生成モデルを用いて、候補から最終的な整列例を生成する。
論文 参考訳(メタデータ) (2022-03-04T08:21:27Z) - JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus [31.203776611871863]
本稿では,限られた資源しか利用できない言語対である英語と日本語の並列コーパスを大規模に作成する。
JParaCrawl v3.0という新しいウェブベースの英語と日本語のパラレルコーパスを導入している。
我々の新しいコーパスには、2100万以上のユニークな並列文ペアが含まれており、これは以前のJParaCrawl v2.0コーパスの2倍以上である。
論文 参考訳(メタデータ) (2022-02-25T10:52:00Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - The ELITR ECA Corpus [5.248750132326314]
我々はBleualignとともに自動翻訳を使用して、506の翻訳方向の並列文対を同定する。
結果は264k文書対と41.9M文対からなるコーパスである。
論文 参考訳(メタデータ) (2021-09-15T15:03:27Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - The Discussion Tracker Corpus of Collaborative Argumentation [2.800857580710507]
ディベート・トラッカー・コーパスはアメリカ高校の英語の授業で収集された。
コーパスは、985分間の音声から書き起こされた英文学に関する29の多党の議論で構成されている。
論文 参考訳(メタデータ) (2020-05-22T18:27:28Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z) - PMIndia -- A Collection of Parallel Corpora of Languages of India [10.434922903332415]
インドの主要言語13言語と英語を組み合わせたパラレル文からなる新しい公開コーパス(PMIndia)について述べる。
コーパスには、各言語対について最大56000の文が含まれている。
本稿では,2つの異なる自動文アライメント手法の評価を含むコーパスの構築方法について解説し,初期NMTの結果をコーパスに提示する。
論文 参考訳(メタデータ) (2020-01-27T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。