論文の概要: Corpus of Chinese Dynastic Histories: Gender Analysis over Two Millennia
- arxiv url: http://arxiv.org/abs/2005.08793v1
- Date: Mon, 18 May 2020 15:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:40:49.254119
- Title: Corpus of Chinese Dynastic Histories: Gender Analysis over Two Millennia
- Title(参考訳): 中国王朝史のコーパス:2千年にわたるジェンダー分析
- Authors: Sergey Zinin, Yang Xu
- Abstract要約: 王朝の歴史は紀元前3世紀から紀元前18世紀にかけて、およそ2000年の長い連続した言語空間を形成している。
歴史は古典(文学)中国語で2000万文字以上のコーパスで記録されており、歴史的辞書の計算分析や意味変化に適している。
このプロジェクトでは,Creative Commonsライセンスでカバーされた24のダイナスティックヒストリーの新たなオープンソースコーパスを導入する。
- 参考スコア(独自算出の注目度): 3.2851864672627618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chinese dynastic histories form a large continuous linguistic space of
approximately 2000 years, from the 3rd century BCE to the 18th century CE. The
histories are documented in Classical (Literary) Chinese in a corpus of over 20
million characters, suitable for the computational analysis of historical
lexicon and semantic change. However, there is no freely available open-source
corpus of these histories, making Classical Chinese low-resource. This project
introduces a new open-source corpus of twenty-four dynastic histories covered
by Creative Commons license. An original list of Classical Chinese
gender-specific terms was developed as a case study for analyzing the
historical linguistic use of male and female terms. The study demonstrates
considerable stability in the usage of these terms, with dominance of male
terms. Exploration of word meanings uses keyword analysis of focus corpora
created for genderspecific terms. This method yields meaningful semantic
representations that can be used for future studies of diachronic semantics.
- Abstract(参考訳): 中国の王朝史は紀元前3世紀から18世紀にかけて約2000年にわたる大規模な連続した言語空間を形成している。
歴史学は、歴史的語彙と意味変化の計算分析に適した2000万文字以上のコーパスで古典中国語(文学)に記録されている。
しかし、これらの歴史の無償のオープンソースコーパスは存在せず、古典中国語のローソースとなっている。
このプロジェクトでは,Creative Commonsライセンスでカバーされた24の王朝の新たなオープンソースコーパスを導入する。
古典中国語のジェンダー特化用語の原型は、男女の歴史的言語的使用の分析のケーススタディとして開発された。
この研究は、男性用語の優位性とともに、これらの用語の使用のかなりの安定性を示している。
単語の意味の探索は、性別特化語のために作成されたフォーカスコーパスのキーワード分析を使用する。
この手法は、ダイアクロニックセマンティクスの将来の研究に使用できる意味的な意味表現をもたらす。
関連論文リスト
- When Does Classical Chinese Help? Quantifying Cross-Lingual Transfer in Hanja and Kanbun [48.07219104902607]
古典中国語から漢語・漢文への言語間移動可能性の仮定を疑問視する。
実験の結果,漢文で書かれた古代朝鮮語文書の言語モデル性能に対する古典中国語データセットの影響は最小限であった。
論文 参考訳(メタデータ) (2024-11-07T15:59:54Z) - Comparative Analysis of Static and Contextual Embeddings for Analyzing Semantic Changes in Medieval Latin Charters [6.883666189245419]
本稿では,意味変化の前と後のコンクエストに関する最初の計算解析について述べる。
これは、わずかな歴史的データセットにおける静的な埋め込みと文脈的な埋め込みを体系的に比較した最初のものである。
既存の研究と一致して,文脈埋め込みは意味変化を捉える上で,静的な単語埋め込みよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-11T22:19:17Z) - What an Elegant Bridge: Multilingual LLMs are Biased Similarly in Different Languages [51.0349882045866]
本稿では,Large Language Models (LLMs) の文法的ジェンダーのレンズによるバイアスについて検討する。
様々な言語における形容詞を持つ名詞を記述するためのモデルを提案し,特に文法性のある言語に焦点を当てた。
単純な分類器は、偶然以上の名詞の性別を予測できるだけでなく、言語間の移動可能性も示せる。
論文 参考訳(メタデータ) (2024-07-12T22:10:16Z) - Temporal Concept Drift and Alignment: An empirical approach to comparing
Knowledge Organization Systems over time [0.0]
本研究では,知識組織システム(KOS)における時間的概念の漂流と時間的アライメントについて検討する。
比較分析は、1910年の議会主題見出し図書館、2020年のFASTトピカル、自動索引付けなどを用いて追求されている。
その結果、歴史的語彙は、KOSや歴史資源において、時間にわたって概念的ドリフトを表すアナクロニスティックな主題の見出しを生成するのに有効であることが確認された。
論文 参考訳(メタデータ) (2022-08-16T16:37:17Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - A Novel Corpus of Discourse Structure in Humans and Computers [55.74664144248097]
約27,000節からなる445の人文・コンピュータ生成文書からなる新しいコーパスを提示する。
コーパスは、フォーマルな言論と非公式な言論の両方をカバーし、微調整のGPT-2を用いて生成された文書を含んでいる。
論文 参考訳(メタデータ) (2021-11-10T20:56:08Z) - From Plenipotentiary to Puddingless: Users and Uses of New Words in
Early English Letters [0.0]
1640--1660-1760--1780の初期の英語の対応の2つのサンプルで新生主義の使用を研究します。
どちらの例でも、neologismは親しい友人の間で書かれた手紙で最も頻繁に発生する。
17世紀のサンプルでは、イギリス内戦の影響を観察し、18世紀のサンプルは文字の書き方の変化を反映しているように見える。
論文 参考訳(メタデータ) (2021-03-17T21:45:06Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Evolution of Part-of-Speech in Classical Chinese [2.870517198186329]
Bisang (2008) は古典中国語は前分類型言語であり、ある単語の統語的位置がその音声のカテゴリーを決定すると主張した。
エントロピーに基づくメトリクスを用いて,これらの主張を歴史的コーパスで評価する。
論文 参考訳(メタデータ) (2020-09-23T13:41:27Z) - A frame semantics based approach to comparative study of digitized
corpus [0.0]
本論文は, デジタル化小説から作成された英語・アラビア語対応コーパスの形態的, 構文的, 意味的アノテーションプロセスに焦点を当てたものである。
本研究では,言語間での運動事象の概念化の違いを,フレーム構造とフレーム間関係で記述することができることを論じる。
論文 参考訳(メタデータ) (2020-05-29T22:56:25Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。