論文の概要: The ITU Faroese Pairs Dataset
- arxiv url: http://arxiv.org/abs/2206.08727v1
- Date: Fri, 17 Jun 2022 12:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 21:24:10.184073
- Title: The ITU Faroese Pairs Dataset
- Title(参考訳): ITU Faroese Pairsデータセット
- Authors: Leon Derczynski, Annika Solveig Hedegaard Isfeldt, Signhild Djurhuus
- Abstract要約: この記事では、ITUコペンハーゲンで制作されたフェロー語とデンマーク語の文対のデータセットについて述べる。
このデータは、両方のソース言語からの転写をカバーしており、この言語ペアにおける機械翻訳システムのトレーニングデータとしての使用を目的としている。
- 参考スコア(独自算出の注目度): 5.414308305392762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article documents a dataset of sentence pairs between Faroese and
Danish, produced at ITU Copenhagen. The data covers tranlsation from both
source languages, and is intended for use as training data for machine
translation systems in this language pair.
- Abstract(参考訳): この記事は、ituコペンハーゲンで作成されたフェロー語とデンマーク語の文対のデータセットを文書化する。
このデータは、両方のソース言語からの翻訳をカバーしており、この言語ペアにおける機械翻訳システムのトレーニングデータとしての使用を意図している。
関連論文リスト
- Open the Data! Chuvash Datasets [50.59120569845975]
Chuvash言語用の包括的データセットを4つ紹介する。
これらのデータセットには、モノリンガルデータセット、ロシア語による並列データセット、英語による並列データセット、オーディオデータセットが含まれる。
論文 参考訳(メタデータ) (2024-05-31T07:51:19Z) - The Effect of Alignment Objectives on Code-Switching Translation [0.0]
我々は、ある言語から別の言語への単言語文の翻訳が可能な単一の機械翻訳モデルを訓練する方法を提案している。
このモデルは、人間の意味でのバイリンガルモデルと見なすことができる。
論文 参考訳(メタデータ) (2023-09-10T14:46:31Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Synergy with Translation Artifacts for Training and Inference in
Multilingual Tasks [11.871523410051527]
本稿では,両翻訳を同時に組み合わせることで,多言語文分類タスクにおける結果の相乗化が可能であることを示す。
本研究では,SupCon と MixUp を併用した言語間微調整アルゴリズム MUSC を提案する。
論文 参考訳(メタデータ) (2022-10-18T04:55:24Z) - Sample, Translate, Recombine: Leveraging Audio Alignments for Data
Augmentation in End-to-end Speech Translation [14.839931533868176]
本稿では,音声アライメント,言語特性,翻訳を利用したデータ拡張手法を提案する。
提案手法は,CoVoST 2上の5つの言語対とEuroparl-ST上の2つの言語対に対して,最大0.9と1.1のBLEU点を一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-03-16T17:15:46Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。