論文の概要: PEACH: A sentence-aligned Parallel English-Arabic Corpus for Healthcare
- arxiv url: http://arxiv.org/abs/2508.05722v1
- Date: Thu, 07 Aug 2025 14:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.959658
- Title: PEACH: A sentence-aligned Parallel English-Arabic Corpus for Healthcare
- Title(参考訳): PEACH: パラレル・イングリッシュ・アラビア・コーパス・フォー・ヘルスケア
- Authors: Rania Al-Sabbagh,
- Abstract要約: PEACHは、英語とアラビア語の平行した医療テキストのコーパスである。
コーパスには51,671のパラレルな文があり、約590,517の英語と567,707のアラビア語の単語トークンがある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces PEACH, a sentence-aligned parallel English-Arabic corpus of healthcare texts encompassing patient information leaflets and educational materials. The corpus contains 51,671 parallel sentences, totaling approximately 590,517 English and 567,707 Arabic word tokens. Sentence lengths vary between 9.52 and 11.83 words on average. As a manually aligned corpus, PEACH is a gold-standard corpus, aiding researchers in contrastive linguistics, translation studies, and natural language processing. It can be used to derive bilingual lexicons, adapt large language models for domain-specific machine translation, evaluate user perceptions of machine translation in healthcare, assess patient information leaflets and educational materials' readability and lay-friendliness, and as an educational resource in translation studies. PEACH is publicly accessible.
- Abstract(参考訳): 本稿では,患者情報リーフレットと教育資料を含む英語とアラビア語の並行テキストコーパスであるPEACHを紹介する。
コーパスには51,671のパラレルな文があり、約590,517の英語と567,707のアラビア語の単語トークンがある。
文の長さは平均9.52語から11.83語まで様々である。
手動で整列したコーパスとして、PEACHは金標準コーパスであり、対照的な言語学、翻訳研究、自然言語処理の研究者を支援する。
バイリンガル語彙の導出、ドメイン固有の機械翻訳のための大きな言語モデルの適用、医療における機械翻訳のユーザ認識の評価、患者の情報リーフレットと教育資料の読みやすさと日常的親和性の評価、翻訳研究における教育資源として利用することができる。
PEACHは一般公開されている。
関連論文リスト
- A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment [10.853984915007961]
本稿では,アラビア語可読性評価のための大規模かつきめ細かいデータセットであるBa balanced Arabic Readability Evaluation Corpus (BAREC)を紹介する。
BARECは1百万語にまたがる69,441の文からなる。
コーパスはジャンルの多様性、トピックのカバレッジ、ターゲットのオーディエンスとのバランスを保ち、アラビア文字の複雑さを評価するための包括的なリソースを提供する。
論文 参考訳(メタデータ) (2025-02-19T08:16:11Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus [2.7036498789349244]
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
論文 参考訳(メタデータ) (2021-07-14T12:16:21Z) - Conversational Machine Reading Comprehension for Vietnamese Healthcare
Texts [0.2446672595462589]
対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。
UIT-ViCoQAは1万の質問と2000以上の健康ニュース記事に関する回答からなる。
最良のモデルは45.27%のf1スコアを得るが、これは人間のパフォーマンスより30.91ポイント遅れている(76.18%)。
論文 参考訳(メタデータ) (2021-05-04T14:50:39Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - PHINC: A Parallel Hinglish Social Media Code-Mixed Corpus for Machine
Translation [1.2301855531996841]
本稿では,13,738のコード混成英語・ヒンディー語文の並列コーパスとその英訳について述べる。
文の翻訳はアノテータが手作業で行う。
我々は、コードミキシング機械翻訳における将来の研究機会を促進するために、並列コーパスをリリースしています。
論文 参考訳(メタデータ) (2020-04-20T17:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。