論文の概要: AncientBench: Towards Comprehensive Evaluation on Excavated and Transmitted Chinese Corpora
- arxiv url: http://arxiv.org/abs/2512.17756v1
- Date: Fri, 19 Dec 2025 16:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.484919
- Title: AncientBench: Towards Comprehensive Evaluation on Excavated and Transmitted Chinese Corpora
- Title(参考訳): 古代ベンチ:発掘・送信された中国のコーパスの総合的評価を目指して
- Authors: Zhihan Zhou, Daqian Shi, Rui Song, Lida Shi, Xiaolei Diao, Hao Xu,
- Abstract要約: 大規模言語モデルの急速な発展には、古代文字の理解を評価するためのベンチマークが必要である。
古代ベンチは、特に発掘文書のシナリオにおいて、古代文字の理解を評価することを目的としている。
ベンチマークには、急進性、音声急進性、ホモフォン、クローゼ、翻訳などを含む10のタスクも含まれている。
- 参考スコア(独自算出の注目度): 20.655514486215196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comprehension of ancient texts plays an important role in archaeology and understanding of Chinese history and civilization. The rapid development of large language models needs benchmarks that can evaluate their comprehension of ancient characters. Existing Chinese benchmarks are mostly targeted at modern Chinese and transmitted documents in ancient Chinese, but the part of excavated documents in ancient Chinese is not covered. To meet this need, we propose the AncientBench, which aims to evaluate the comprehension of ancient characters, especially in the scenario of excavated documents. The AncientBench is divided into four dimensions, which correspond to the four competencies of ancient character comprehension: glyph comprehension, pronunciation comprehension, meaning comprehension, and contextual comprehension. The benchmark also contains ten tasks, including radical, phonetic radical, homophone, cloze, translation, and more, providing a comprehensive framework for evaluation. We convened archaeological researchers to conduct experimental evaluations, proposed an ancient model as baseline, and conducted extensive experiments on the currently best-performing large language models. The experimental results reveal the great potential of large language models in ancient textual scenarios as well as the gap with humans. Our research aims to promote the development and application of large language models in the field of archaeology and ancient Chinese language.
- Abstract(参考訳): 古代の文献の理解は、中国史や文明の考古学や理解において重要な役割を担っている。
大規模言語モデルの急速な発展には、古代文字の理解を評価するためのベンチマークが必要である。
現存する中国のベンチマークは主に古代中国語の現代中国語や伝来文書を対象としているが、古代中国語の出土文書の一部はカバーされていない。
このニーズに応えるために,古代文字の理解,特に出土文書のシナリオにおいて評価することを目的とした古ベンチを提案する。
古代ベンチ語は、古代文字理解の4つの能力(グリフ理解、発音理解、理解の意味)に対応する4つの次元に分けられる。
このベンチマークには、急進性、音声急進性、ホモフォン、クローゼ、翻訳などを含む10のタスクが含まれており、評価のための包括的なフレームワークを提供する。
我々は考古学研究者を招集して実験を行い、古代のモデルをベースラインとして提案し、現在最高の性能を持つ大規模言語モデルに関する広範な実験を行った。
実験結果から、古代のテキストシナリオにおける大きな言語モデルの可能性と、人間とのギャップが明らかとなった。
本研究は,考古学・古代中国語分野における大規模言語モデルの開発と適用を促進することを目的としている。
関連論文リスト
- Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning [37.68293827920165]
我々は,VLM(Vision-Language Models)を評価するために設計された,中国の古文書の最初のベンチマークであるOstDocを提示する。
古代文書には5つのタスク(ページレベルのOCR、頂点翻訳、推論に基づくQA、知識に基づくQA、言語的な変種QA)があり、14のドキュメントタイプ、100冊以上の書籍、約3,000ページをカバーしている。
AncientDocをベースとして,複数のメトリクスを用いて主流のVLMを評価し,人手によるスコアリングのための大規模言語モデルで補足した。
論文 参考訳(メタデータ) (2025-09-10T13:02:29Z) - EssayBench: Evaluating Large Language Models in Multi-Genre Chinese Essay Writing [47.704427451419456]
benchNameは4つの主要なジャンル(Argumentative, Narrative, Descriptive, Expository)にまたがる中国語エッセイを書くために設計されたマルチジャンルのベンチマークである。
階層的にスコアを集計する,きめ細かなジャンル別スコアリングフレームワークを開発した。
我々は15個の大型LCMをベンチマークし、ジャンルや命令タイプにまたがる長所と短所を分析した。
論文 参考訳(メタデータ) (2025-06-03T08:14:46Z) - Shared Heritage, Distinct Writing: Rethinking Resource Selection for East Asian Historical Documents [60.348103523743276]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Puzzle Pieces Picker: Deciphering Ancient Chinese Characters with Radical Reconstruction [73.26364649572237]
Oracle Bone Inscriptionsは、世界で最も古い書式である。
多くのOracle Bone Inscriptions (OBI) は未解読のままであり、今日の古生物学におけるグローバルな課題の1つとなっている。
本稿では, 急進的再構成によってこれらの謎的文字を解読する新しい手法, Puzzle Pieces Picker (P$3$) を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:34:39Z) - AC-EVAL: Evaluating Ancient Chinese Language Understanding in Large
Language Models [15.490610582567543]
AC-EVALは、大規模言語モデル(LLM)の高度な知識と推論能力を評価するために設計されたベンチマークである。
このベンチマークは歴史的事実、地理、社会慣習、芸術、哲学、古典詩、散文を含む13のタスクで構成されている。
英語と中国語の両方に合わせた最高性能LLMの評価は、古代のテキスト理解を向上する大きな可能性を示唆している。
論文 参考訳(メタデータ) (2024-03-11T10:24:37Z) - Can Large Language Model Comprehend Ancient Chinese? A Preliminary Test
on ACLUE [23.598825660594926]
ACLUEは、古代中国語を解釈する際の言語モデルの能力を評価するために設計された評価ベンチマークである。
現代中国語と古代中国語の演奏に顕著な相違が見られた。
ChatGLM2は最も顕著なパフォーマンスを示し、平均スコアは37.4%である。
論文 参考訳(メタデータ) (2023-10-14T10:06:39Z) - Towards Effective Ancient Chinese Translation: Dataset, Model, and
Evaluation [28.930640246972516]
本稿では,古漢訳のためのエリヤを提案する。
データセットの観点から、さまざまな情報源から古代中国の資料を収集し、清浄し、分類する。
モデルの観点からは,古代中国語を指向したEryaトレーニング手法を考案する。
論文 参考訳(メタデータ) (2023-08-01T02:43:27Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - AnchiBERT: A Pre-Trained Model for Ancient ChineseLanguage Understanding
and Generation [22.08457469951396]
AnchiBERTは、BERTのアーキテクチャに基づいた事前訓練された言語モデルである。
詩分類を含む言語理解タスクと生成タスクの両面でAnchiBERTを評価した。
論文 参考訳(メタデータ) (2020-09-24T03:41:13Z) - Generating Major Types of Chinese Classical Poetry in a Uniformed
Framework [88.57587722069239]
GPT-2に基づく漢詩の主要なタイプを生成するフレームワークを提案する。
予備的な結果は、この強化されたモデルが、形も内容も質の高い大型漢詩を生成できることを示している。
論文 参考訳(メタデータ) (2020-03-13T14:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。