論文の概要: A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation
- arxiv url: http://arxiv.org/abs/2008.04550v2
- Date: Thu, 12 Nov 2020 14:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:28:33.620168
- Title: A Parallel Evaluation Data Set of Software Documentation with Document
Structure Annotation
- Title(参考訳): 文書構造アノテーションを用いたソフトウェアドキュメンテーションの並列評価データセット
- Authors: Bianka Buschbeck and Miriam Exel
- Abstract要約: データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語からなる。
我々は、データセットの起源と生成、特異性、特徴、および機械翻訳結果に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper accompanies the software documentation data set for machine
translation, a parallel evaluation data set of data originating from the SAP
Help Portal, that we released to the machine translation community for research
purposes. It offers the possibility to tune and evaluate machine translation
systems in the domain of corporate software documentation and contributes to
the availability of a wider range of evaluation scenarios. The data set
comprises of the language pairs English to Hindi, Indonesian, Malay and Thai,
and thus also increases the test coverage for the many low-resource language
pairs. Unlike most evaluation data sets that consist of plain parallel text,
the segments in this data set come with additional metadata that describes
structural information of the document context. We provide insights into the
origin and creation, the particularities and characteristics of the data set as
well as machine translation results.
- Abstract(参考訳): 本稿では,SAPヘルプポータルを起源とする並列評価データセットである機械翻訳用ソフトウェア文書データセットを,研究目的で機械翻訳コミュニティにリリースした。
企業ソフトウェアドキュメンテーションの領域において、機械翻訳システムをチューニングし、評価する可能性を提供し、幅広い評価シナリオの可用性に貢献する。
データセットは英語とヒンディー語、インドネシア語、マレー語、タイ語のペアで構成されており、多くの低リソース言語ペアのテストカバレッジも向上している。
平易なパラレルテキストからなるほとんどの評価データセットとは異なり、このデータセットのセグメントには、ドキュメントコンテキストの構造情報を記述するメタデータが追加されている。
我々は、データの起源と生成、データセットの特異性と特性、および機械翻訳結果に関する洞察を提供する。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Dataset of Quotation Attribution in German News Articles [19.222705178881558]
我々は、WIKINEWSに基づくドイツのニュース記事において、引用帰属のための新しい、自由で、クリエイティブなライセンス付きデータセットを提示する。
データセットは、1000のドキュメント(25万のトークン)にわたる、キュレートされた高品質のアノテーションを提供する。
論文 参考訳(メタデータ) (2024-04-25T17:19:13Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - Backretrieval: An Image-Pivoted Evaluation Metric for Cross-Lingual Text
Representations Without Parallel Corpora [19.02834713111249]
Backretrievalは、注釈付きデータセットの地上の真実メトリクスと相関している。
本実験は,並列言語間データを用いないレシピデータセットのケーススタディで締めくくった。
論文 参考訳(メタデータ) (2021-05-11T12:14:24Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z) - Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model [12.543106304662059]
本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
論文 参考訳(メタデータ) (2020-10-24T08:06:18Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。