論文の概要: Towards Effective Ancient Chinese Translation: Dataset, Model, and
Evaluation
- arxiv url: http://arxiv.org/abs/2308.00240v1
- Date: Tue, 1 Aug 2023 02:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 15:40:06.715411
- Title: Towards Effective Ancient Chinese Translation: Dataset, Model, and
Evaluation
- Title(参考訳): 効率的な古代中国語訳に向けて:データセット、モデル、そして評価
- Authors: Geyang Guo, Jiarong Yang, Fengyuan Lu, Jiaxin Qin, Tianyi Tang, Wayne
Xin Zhao
- Abstract要約: 本稿では,古漢訳のためのエリヤを提案する。
データセットの観点から、さまざまな情報源から古代中国の資料を収集し、清浄し、分類する。
モデルの観点からは,古代中国語を指向したEryaトレーニング手法を考案する。
- 参考スコア(独自算出の注目度): 28.930640246972516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interpreting ancient Chinese has been the key to comprehending vast Chinese
literature, tradition, and civilization. In this paper, we propose Erya for
ancient Chinese translation. From a dataset perspective, we collect, clean, and
classify ancient Chinese materials from various sources, forming the most
extensive ancient Chinese resource to date. From a model perspective, we devise
Erya training method oriented towards ancient Chinese. We design two
jointly-working tasks: disyllabic aligned substitution (DAS) and dual masked
language model (DMLM). From an evaluation perspective, we build a benchmark to
judge ancient Chinese translation quality in different scenarios and evaluate
the ancient Chinese translation capacities of various existing models. Our
model exhibits remarkable zero-shot performance across five domains, with over
+12.0 BLEU against GPT-3.5 models and better human evaluation results than
ERNIE Bot. Subsequent fine-tuning further shows the superior transfer
capability of Erya model with +6.2 BLEU gain. We release all the
above-mentioned resources at https://github.com/RUCAIBox/Erya.
- Abstract(参考訳): 古代中国を解釈することは、広大な中国文学、伝統、文明を理解する鍵となった。
本稿では,古漢訳のためのエリヤを提案する。
データセットの観点からは、さまざまな資料から古代中国資料を収集、清浄し、分類し、現在まで最も広範な古代中国資料を形成する。
モデルの観点からは、古代中国を指向したeryaトレーニング手法を考案する。
本研究では,2つの共同作業タスクを設計する: disyllabic aligned substitution (DAS) と dual masked language model (DMLM) である。
評価の観点から, 古代中国語の翻訳品質を異なるシナリオで判断し, 既存モデルの古代中国語翻訳能力を評価するベンチマークを構築した。
GPT-3.5 モデルに対して +12.0 BLEU 以上の BLEU と ERNIE Bot よりも優れた評価結果が得られた。
その後の微調整は、+6.2 bleuゲインを持つeryaモデルの優れた転送能力を示す。
上記のリソースはすべてhttps://github.com/RUCAIBox/Erya.comでリリースしています。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding [57.22231959529641]
Hunyuan-DiTは、英語と中国語の両方を詳細に理解したテキスト・画像拡散変換器である。
詳細な言語理解のために、画像のキャプションを洗練させるためにマルチモーダル大言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-14T16:33:25Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE [23.598825660594926]
ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
論文 参考訳(メタデータ) (2023-10-14T10:06:39Z) - Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文 参考訳(メタデータ) (2023-04-17T11:39:53Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - AnchiBERT: A Pre-Trained Model for Ancient ChineseLanguage Understanding
and Generation [22.08457469951396]
AnchiBERTは、BERTのアーキテクチャに基づいた事前訓練された言語モデルである。
詩分類を含む言語理解タスクと生成タスクの両面でAnchiBERTを評価した。
論文 参考訳(メタデータ) (2020-09-24T03:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。