論文の概要: A High-Quality Multilingual Dataset for Structured Documentation
Translation
- arxiv url: http://arxiv.org/abs/2006.13425v1
- Date: Wed, 24 Jun 2020 02:08:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 12:40:30.113074
- Title: A High-Quality Multilingual Dataset for Structured Documentation
Translation
- Title(参考訳): 構造化文書翻訳のための高品質多言語データセット
- Authors: Kazuma Hashimoto, Raffaella Buschiazzo, James Bradbury, Teresa
Marshall, Richard Socher, Caiming Xiong
- Abstract要約: 本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
- 参考スコア(独自算出の注目度): 101.41835967142521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a high-quality multilingual dataset for the documentation
domain to advance research on localization of structured text. Unlike
widely-used datasets for translation of plain text, we collect XML-structured
parallel text segments from the online documentation for an enterprise software
platform. These Web pages have been professionally translated from English into
16 languages and maintained by domain experts, and around 100,000 text segments
are available for each language pair. We build and evaluate translation models
for seven target languages from English, with several different copy mechanisms
and an XML-constrained beam search. We also experiment with a non-English pair
to show that our dataset has the potential to explicitly enable $17 \times 16$
translation settings. Our experiments show that learning to translate with the
XML tags improves translation accuracy, and the beam search accurately
generates XML structures. We also discuss trade-offs of using the copy
mechanisms by focusing on translation of numerical words and named entities. We
further provide a detailed human analysis of gaps between the model output and
human translations for real-world applications, including suitability for
post-editing.
- Abstract(参考訳): 本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
プレーンテキストの翻訳に広く使われているデータセットとは異なり、エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
これらのウェブページは英語から16の言語に翻訳され、ドメインの専門家によって維持されており、言語ペアごとに約10万のテキストセグメントが利用可能である。
我々は、いくつかの異なるコピー機構とXML制約されたビームサーチを用いて、英語から7つのターゲット言語に対する翻訳モデルを構築し、評価する。
また、非英語のペアを使って、データセットが17ドルの翻訳設定を明示的に有効化できる可能性を示す。
実験の結果,XMLタグの翻訳学習により翻訳精度が向上し,ビームサーチがXML構造を正確に生成することがわかった。
また,数値単語と名前付きエンティティの翻訳に焦点をあてて,コピー機構の使用のトレードオフについて論じる。
さらに, モデル出力と人間の翻訳とのギャップを, ポスト編集に適したものを含め, 詳細な分析を行う。
関連論文リスト
- X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and
Few-shot Agents [43.446606562545085]
我々は、中国語のRiSAWOZを4言語に翻訳することで、X-RiSAWOZという新しい多言語ベンチマークを作成する。
X-RiSAWOZは、言語毎に18,000以上の人間認証された対話発話を持つ。
翻訳後,新たな言語データセットの編集を高速化するツールセットを開発した。
論文 参考訳(メタデータ) (2023-06-30T14:03:30Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation [0.0]
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。
我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
論文 参考訳(メタデータ) (2020-08-11T06:50:23Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。