論文の概要: Creation of the Chinese Adaptive Policy Communication Corpus
- arxiv url: http://arxiv.org/abs/2510.08986v1
- Date: Fri, 10 Oct 2025 04:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.104062
- Title: Creation of the Chinese Adaptive Policy Communication Corpus
- Title(参考訳): 中国アダプティブ・ポリシー・コミュニケーション・コーポレーションの創出
- Authors: Bolun Sun, Charles Chang, Yuen Yuen Ang, Pingxu Hao, Ruotong Mu, Yuchen Xu, Zhengxin Zhang,
- Abstract要約: CAPC-CGは5色分類でアノテートされた中国の政策指令の最初のオープンデータセットである。
このコーパスには、中国の最高機関が発行する国家法、行政規則、大臣規則が含まれている。
- 参考スコア(独自算出の注目度): 3.16155761486565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce CAPC-CG, the Chinese Adaptive Policy Communication (Central Government) Corpus, the first open dataset of Chinese policy directives annotated with a five-color taxonomy of clear and ambiguous language categories, building on Ang's theory of adaptive policy communication. Spanning 1949-2023, this corpus includes national laws, administrative regulations, and ministerial rules issued by China's top authorities. Each document is segmented into paragraphs, producing a total of 3.3 million units. Alongside the corpus, we release comprehensive metadata, a two-round labeling framework, and a gold-standard annotation set developed by expert and trained coders. Inter-annotator agreement achieves a Fleiss's kappa of K = 0.86 on directive labels, indicating high reliability for supervised modeling. We provide baseline classification results with several large language models (LLMs), together with our annotation codebook, and describe patterns from the dataset. This release aims to support downstream tasks and multilingual NLP research in policy communication.
- Abstract(参考訳): 我々は,中国適応政策コミュニケーション(中央政府)コーパスであるCAPC-CGを紹介し,Angの適応政策コミュニケーション理論に基づいて,明確で曖昧な言語カテゴリーの5色分類をアノテートした中国政策指令の最初のオープンデータセットについて紹介する。
1949-2023年の間に、このコーパスには国家法、行政規則、中国の最高機関が発行する大臣規則が含まれていた。
各文書は段落に区切られ、総計330万ユニットを生産している。
コーパスの他に、包括的メタデータ、2ラウンドのラベリングフレームワーク、専門家や訓練されたプログラマによって開発されたゴールドスタンダードのアノテーションもリリースしています。
アノテーション間の合意は、指示ラベル上のFleissのK = 0.86のカッパを達成し、教師付きモデリングの信頼性が高いことを示す。
いくつかの大きな言語モデル(LLM)でベースライン分類結果を提供し、アノテーションコードブックとともにデータセットからパターンを記述する。
このリリースは、下流タスクとポリシーコミュニケーションにおける多言語NLP研究をサポートすることを目的としている。
関連論文リスト
- CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。
CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。
CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文 参考訳(メタデータ) (2025-10-07T15:33:52Z) - Chinese Grammatical Error Correction: A Survey [2.6914312267666705]
中国語の文法的誤り訂正(CGEC)は自然言語処理において重要な課題である。
CGECは、第二言語 (L2) とネイティブ (L1) の両方における自動筆記支援の需要の増加に対処している。
本調査は、データセット、アノテーションスキーム、評価手法、システム進歩など、CGEC研究の総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-04-01T17:14:50Z) - Cross-domain Chinese Sentence Pattern Parsing [67.1381983012038]
文パターン構造解析(SPS)は、主に言語教育に使用される構文解析法である。
既存のSPSは教科書のコーパスに大きく依存しており、クロスドメイン機能に欠ける。
本稿では,大規模言語モデル(LLM)を自己学習フレームワーク内で活用する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T05:30:48Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech [27.657676278734534]
本稿では,子指向音声のこのようなコーパスを,感性論理形式と組み合わせて構築する手法を提案する。
このアプローチは言語間一貫した表現を強制し、依存関係表現とセマンティック解析の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2021-09-22T18:17:06Z) - Knowledge-based Review Generation by Coherence Enhanced Text Planning [45.473253542837995]
我々は,知識グラフ(KGs)に基づく新しいコヒーレンス拡張テキストプランニングモデル(CETP)を提案し,レビュー生成のためのグローバルおよびローカルのコヒーレンスを改善する。
グローバルコヒーレンスのために,サブグラフとノードレベルの双方に注意を払って,サブグラフ間の相関性を高める階層的自己意図アーキテクチャを設計する。
3つのデータセットの実験は、生成されたテキストのコンテンツコヒーレンスを改善するためのモデルの有効性を確認します。
論文 参考訳(メタデータ) (2021-05-09T02:12:05Z) - Institutional Grammar 2.0 Codebook [0.0]
このコードブックは、Institutional Grammarの改訂版であるInstitutional Grammar 2.0 (IG 2.0)のコーディングガイドラインを提供する。
IG 2.0は、様々な分析目的を満たすためのポリシーの符号化を容易にすることを目的とした仕様である。
論文 参考訳(メタデータ) (2020-08-20T12:38:55Z) - Cross-lingual Entity Alignment with Incidental Supervision [76.66793175159192]
本稿では,多言語KGとテキストコーパスを共通埋め込み方式で共同で表現する,偶発的に教師付きモデルであるJEANSを提案する。
ベンチマークデータセットの実験では、JEANSがエンティティアライメントとインシデントインシデントインシデントインスペクションの改善を期待できる結果となった。
論文 参考訳(メタデータ) (2020-05-01T01:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。