論文の概要: PETCI: A Parallel English Translation Dataset of Chinese Idioms
- arxiv url: http://arxiv.org/abs/2202.09509v1
- Date: Sat, 19 Feb 2022 03:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 21:46:56.637095
- Title: PETCI: A Parallel English Translation Dataset of Chinese Idioms
- Title(参考訳): petci: 中国語のイディオムの並列英語翻訳データセット
- Authors: Kenan Tang (The University of Chicago)
- Abstract要約: 現在の機械翻訳モデルは、イディオム翻訳が不十分であるのに対して、多くの翻訳データセットではイディオムはスパースである。
中国語のイディオムの並列翻訳データセットについて,人間と機械の双方による翻訳を改善することを目的とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idioms are an important language phenomenon in Chinese, but idiom translation
is notoriously hard. Current machine translation models perform poorly on idiom
translation, while idioms are sparse in many translation datasets. We present
PETCI, a parallel English translation dataset of Chinese idioms, aiming to
improve idiom translation by both human and machine. The dataset is built by
leveraging human and machine effort. Baseline generation models show
unsatisfactory abilities to improve translation, but structure-aware
classification models show good performance on distinguishing good
translations. Furthermore, the size of PETCI can be easily increased without
expertise. Overall, PETCI can be helpful to language learners and machine
translation systems.
- Abstract(参考訳): イディオムは中国語で重要な言語現象であるが、イディオム翻訳は非常に難しい。
現在の機械翻訳モデルはイディオム翻訳では性能が悪く、イディオムは多くの翻訳データセットではスパースである。
我々は,中国語のイディオムの並行翻訳データセットであるPETCIについて,人間と機械の両方によるイディオム翻訳を改善することを目的とした。
データセットは人間と機械の努力を活用することで構築される。
ベースライン生成モデルは、翻訳を改善するのに不満足な能力を示すが、構造対応分類モデルは優れた翻訳を区別する上で優れた性能を示す。
さらに、PETCIのサイズは専門知識なしで容易に拡大できる。
PETCIは言語学習者や機械翻訳システムに有用である。
関連論文リスト
- The Role of Handling Attributive Nouns in Improving Chinese-To-English Machine Translation [5.64086253718739]
特に、中国語の帰属名詞による翻訳課題を対象とし、英語翻訳における曖昧さをしばしば引き起こす。
省略粒子X('DE')を手動で挿入することで、この臨界関数ワードの処理方法を改善する。
論文 参考訳(メタデータ) (2024-12-18T20:37:52Z) - Creative and Context-Aware Translation of East Asian Idioms with GPT-4 [20.834802250633686]
GPT-4は東アジアのイディオムの高品質な翻訳を生成できる。
低コストで、我々のコンテキスト対応翻訳は、人間のベースラインよりも、イディオム当たりの高品質な翻訳を実現することができる。
論文 参考訳(メタデータ) (2024-10-01T18:24:43Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Do Multilingual Language Models Think Better in English? [24.713751471567395]
翻訳テストは多言語言語モデルの性能を向上させるための一般的な手法である。
本研究では,外部翻訳システムの必要性を克服する自己翻訳という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T15:29:22Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。