論文の概要: KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks
- arxiv url: http://arxiv.org/abs/2209.00367v2
- Date: Fri, 2 Sep 2022 05:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 10:18:58.143692
- Title: KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks
- Title(参考訳): コチェット(KoCHET):朝鮮文化遺産法人、エンティティ関連事業
- Authors: Gyeongmin Kim, Jinsung Kim, Junyoung Son, Heuiseok Lim
- Abstract要約: コチェット(KoCHET)は、韓国の文化遺産団体。
112,362、38,765、113,198のNER、RE、ETタスクからなる。
既存の公的なコーパスとは異なり、修正された再配布は国内外の研究者の両方に許される。
- 参考スコア(独自算出の注目度): 2.9439848714137447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As digitized traditional cultural heritage documents have rapidly increased,
resulting in an increased need for preservation and management, practical
recognition of entities and typification of their classes has become essential.
To achieve this, we propose KoCHET - a Korean cultural heritage corpus for the
typical entity-related tasks, i.e., named entity recognition (NER), relation
extraction (RE), and entity typing (ET). Advised by cultural heritage experts
based on the data construction guidelines of government-affiliated
organizations, KoCHET consists of respectively 112,362, 38,765, 113,198
examples for NER, RE, and ET tasks, covering all entity types related to Korean
cultural heritage. Moreover, unlike the existing public corpora, modified
redistribution can be allowed both domestic and foreign researchers. Our
experimental results make the practical usability of KoCHET more valuable in
terms of cultural heritage. We also provide practical insights of KoCHET in
terms of statistical and linguistic analysis. Our corpus is freely available at
https://github.com/Gyeongmin47/KoCHET.
- Abstract(参考訳): デジタル化された伝統文化遺産文書が急速に増加し、保存・管理の必要性が増し、実体の実践的認識と類型化が不可欠となった。
そこで我々は,韓国の文化遺産コーパスであるKoCHETを提案する。これは,エンティティ認識(NER)や関係抽出(RE),エンティティタイピング(ET)といった,典型的なエンティティ関連タスクのためのものだ。
政府系団体のデータ構築ガイドラインに基づく文化遺産専門家の助言により、韓国文化遺産に関連するすべての実体を網羅した112,362, 38,765, 113,198件のNER, RE, ETの事例からなる。
さらに、既存の公的なコーパスとは異なり、修正された再分配は国内外の研究者にも許される。
実験の結果,KoCHETの実用性は文化遺産の面でより有益であることがわかった。
また,統計的および言語学的分析の観点から,KoCHETの実践的洞察を提供する。
当社のコーパスはhttps://github.com/Gyeongmin47/KoCHET.comから無償で入手可能です。
関連論文リスト
- Extracting Cultural Commonsense Knowledge at Scale [28.856786775318486]
CANDLEは、高品質な文化的常識知識を大規模に抽出するためのエンドツーエンドの方法論である。
3つの領域(地理学、宗教、職業)といくつかの文化的側面の集合体にアサーションをまとめる。
CanDLEには、分類に基づくフィルタリングと興味深いスコア付けのための司法手法が含まれている。
論文 参考訳(メタデータ) (2022-10-14T12:53:57Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Geolocation of Cultural Heritage using Multi-View Knowledge Graph
Embedding [18.822364073669583]
本稿では,有形文化財に関する知識を習得するための枠組みを提案する。
また,文化遺産間の相対的距離を推定する学習モデルを提案する。
論文 参考訳(メタデータ) (2022-09-08T08:32:34Z) - Entity Graph Extraction from Legal Acts -- a Prototype for a Use Case in
Policy Design Analysis [52.77024349608834]
本稿では,公共政策設計の定量的研究を支援するために開発されたプロトタイプについて述べる。
本システムの目的は,法律文書の収集プロセスの自動化,機関文法の注釈付け,ハイパーグラフによる重要機関間の相互関係の分析である。
論文 参考訳(メタデータ) (2022-09-02T10:57:47Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - The "Collections as ML Data" Checklist for Machine Learning & Cultural
Heritage [0.20305676256390934]
デジタルコレクションに機械学習を適用する際に、重要な社会技術レンズを検討する努力が増えている。
マシンラーニングプロジェクトに着手する実践者のために作られたガイドラインは、まだ数多く残っています。
本稿では,機械学習プロジェクトの開発において採用可能な質問やプラクティスをガイドする詳細なチェックリストを定式化することによって,このニーズに寄与する。
論文 参考訳(メタデータ) (2022-07-06T20:35:25Z) - StereoKG: Data-Driven Knowledge Graph Construction for Cultural
Knowledge and Stereotypes [17.916919837253108]
文化知識とステレオタイプに関する知識グラフ(KG)を生成するための,完全なデータ駆動パイプラインを提案する。
結果として得られたKGは5つの宗教グループと5つの国籍をカバーし、より多くの団体を含むように容易に拡張できます。
論文 参考訳(メタデータ) (2022-05-27T15:09:56Z) - Learning Robust Real-Time Cultural Transmission without Human Data [82.05222093231566]
人工知能エージェントにおけるゼロショット、高リコール文化伝達を生成する方法を提案する。
我々のエージェントは、事前に収集された人間のデータを使わずに、新しい文脈で人間からリアルタイムの文化的伝達に成功した。
これは、人工知能を開発するアルゴリズムとしての文化進化の道を開くものである。
論文 参考訳(メタデータ) (2022-03-01T19:32:27Z) - WHOSe Heritage: Classification of UNESCO World Heritage "Outstanding
Universal Value" Documents with Smoothed Labels [1.6440434996206623]
本研究は, 最新のnlpモデルを用いて, 公式のuv正当化文を含む新しい実世界のデータセット上に分類器を構築する。
ラベル平滑化は革新的に、タスクをマルチクラス分類とマルチラベル分類にスムーズに変換するために適応する。
この研究は、BERTとULMFiTから微調整された最良のモデルが94.3%のトップ3の精度に達することを示した。
論文 参考訳(メタデータ) (2021-04-12T15:18:41Z) - CoLAKE: Contextualized Language and Knowledge Embedding [81.90416952762803]
文脈型言語と知識埋め込み(CoLAKE)を提案する。
CoLAKEは、言語と知識の両方の文脈化された表現を、拡張された目的によって共同で学習する。
知識駆動タスク、知識探索タスク、言語理解タスクについて実験を行う。
論文 参考訳(メタデータ) (2020-10-01T11:39:32Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。