Fugu-MT 論文翻訳(概要): KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks

論文の概要: KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks

arxiv url: http://arxiv.org/abs/2209.00367v1
Date: Thu, 1 Sep 2022 11:23:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-02 13:21:19.428348
Title: KoCHET: a Korean Cultural Heritage corpus for Entity-related Tasks
Title（参考訳）: コチェット(KoCHET):朝鮮文化遺産法人、エンティティ関連事業
Authors: Gyeongmin Kim, Jinsung Kim, Junyoung Son, Heuiseok Lim
Abstract要約: コチェット(KoCHET)は、韓国の文化遺産団体。 112,362、38,765、113,198のNER、RE、ETタスクからなる。既存の公的なコーパスとは異なり、修正された再配布は国内外の研究者の両方に許される。
参考スコア（独自算出の注目度）: 2.9439848714137447
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As digitized traditional cultural heritage documents have rapidly increased, resulting in an increased need for preservation and management, practical recognition of entities and typification of their classes has become essential. To achieve this, we propose KoCHET - a Korean cultural heritage corpus for the typical entity-related tasks, i.e., named entity recognition (NER), relation extraction (RE), and entity typing (ET). Advised by cultural heritage experts based on the data construction guidelines of government-affiliated organizations, KoCHET consists of respectively 112,362, 38,765, 113,198 examples for NER, RE, and ET tasks, covering all entity types related to Korean cultural heritage. Moreover, unlike the existing public corpora, modified redistribution can be allowed both domestic and foreign researchers. Our experimental results make the practical usability of KoCHET more valuable in terms of cultural heritage. We also provide practical insights of KoCHET in terms of statistical and linguistic analysis. Our corpus is freely available at https://github.com/Gyeongmin47/KoCHET.
Abstract（参考訳）: デジタル化された伝統文化遺産文書が急速に増加し、保存・管理の必要性が増し、実体の実践的認識と類型化が不可欠となった。そこで我々は,韓国の文化遺産コーパスであるKoCHETを提案する。これは,エンティティ認識(NER)や関係抽出(RE),エンティティタイピング(ET)といった,典型的なエンティティ関連タスクのためのものだ。政府系団体のデータ構築ガイドラインに基づく文化遺産専門家の助言により、韓国文化遺産に関連するすべての実体を網羅した112,362, 38,765, 113,198件のNER, RE, ETの事例からなる。さらに、既存の公的なコーパスとは異なり、修正された再分配は国内外の研究者にも許される。実験の結果,KoCHETの実用性は文化遺産の面でより有益であることがわかった。また,統計的および言語学的分析の観点から,KoCHETの実践的洞察を提供する。当社のコーパスはhttps://github.com/Gyeongmin47/KoCHET.comから無償で入手可能です。

関連論文リスト

Mind the Gap in Cultural Alignment: Task-Aware Culture Management for Large Language Models [78.19037585302475]
大規模言語モデル(LLM)は、文化的に敏感な現実世界のタスクにますますデプロイされている。既存の文化的アライメントアプローチは、LLMの幅広い文化的価値を下流タスクの特定の目標と整合させることができない。タスク固有の文化的アライメントのための新しいパイプラインであるCultureManagerを提案する。
論文参考訳（メタデータ） (2026-02-25T23:27:18Z)
LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文参考訳（メタデータ） (2026-01-25T20:05:04Z)
From National Curricula to Cultural Awareness: Constructing Open-Ended Culture-Specific Question Answering Dataset [9.332032554087474]
本稿では,文化意識管理の基盤として,国家社会学カリキュラムを活用したスケーラブルなアプローチを提案する。韓国の社会学カリキュラムにCuCuを適用し,34.1万対のオープンエンドQAからなるKCaQAを構築した。定量的および質的分析から,KCaQAは文化特有のトピックをカバーし,地域社会文化の文脈に根ざした応答を生み出すことが示唆された。
論文参考訳（メタデータ） (2026-01-08T06:04:59Z)
CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。実験結果から,文化的理解を効果的に評価できることが示唆された。
論文参考訳（メタデータ） (2025-09-19T17:47:48Z)
CultureSynth: A Hierarchical Taxonomy-Guided and Retrieval-Augmented Framework for Cultural Question-Answer Synthesis [41.483432890962824]
本稿では,大規模言語モデルの文化的能力を評価する新しいフレームワークであるCulture Synthを紹介する。 Culture Synth-7ベンチマークには、7つの言語にまたがる19,360項目と4,149項目の検証済みエントリが含まれている。
論文参考訳（メタデータ） (2025-09-13T16:33:56Z)
CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文参考訳（メタデータ） (2025-06-10T17:16:23Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文参考訳（メタデータ） (2025-04-09T13:40:13Z)
Not All Personas Are Worth It: Culture-Reflective Persona Data Augmentation [0.0]
韓国の文化的価値、行動、社会的なニュアンスを捉えるために設計された20万のペルソナからなるデータセットであるKoPersonaを紹介した。様々な指標による総合的な評価は、KoPersonaの品質と韓国文化との関連性を検証している。
論文参考訳（メタデータ） (2025-03-17T01:23:57Z)
How Well Do LLMs Identify Cultural Unity in Diversity? [12.982460687543952]
本稿では,概念の文化的統一性を理解するために,デコーダのみの大規模言語モデル(LLM)を評価するためのベンチマークデータセットを提案する。 CUNITは、10か国で285の伝統的な文化的概念に基づいて構築された1,425の評価例で構成されている。高い関連性を持つ異文化のコンセプトペアを識別するLLMの能力を評価するために,コントラストマッチングタスクを設計する。
論文参考訳（メタデータ） (2024-08-09T14:45:22Z)
Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文参考訳（メタデータ） (2024-06-17T14:03:27Z)
CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文参考訳（メタデータ） (2024-05-24T01:49:02Z)
CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。 TikTokから12K、Redditから1Kの文化的記述が含まれている。今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文参考訳（メタデータ） (2024-04-23T17:16:08Z)
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (2024-03-11T03:54:33Z)
Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文参考訳（メタデータ） (2024-02-14T18:16:54Z)
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文参考訳（メタデータ） (2023-09-06T04:38:16Z)
HUE: Pretrained Model and Dataset for Understanding Hanja Documents of Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文参考訳（メタデータ） (2022-10-11T03:04:28Z)
Geolocation of Cultural Heritage using Multi-View Knowledge Graph Embedding [18.822364073669583]
本稿では,有形文化財に関する知識を習得するための枠組みを提案する。また,文化遺産間の相対的距離を推定する学習モデルを提案する。
論文参考訳（メタデータ） (2022-09-08T08:32:34Z)
Entity Graph Extraction from Legal Acts -- a Prototype for a Use Case in Policy Design Analysis [52.77024349608834]
本稿では,公共政策設計の定量的研究を支援するために開発されたプロトタイプについて述べる。本システムの目的は,法律文書の収集プロセスの自動化,機関文法の注釈付け,ハイパーグラフによる重要機関間の相互関係の分析である。
論文参考訳（メタデータ） (2022-09-02T10:57:47Z)
WHOSe Heritage: Classification of UNESCO World Heritage "Outstanding Universal Value" Documents with Smoothed Labels [1.6440434996206623]
本研究は, 最新のnlpモデルを用いて, 公式のuv正当化文を含む新しい実世界のデータセット上に分類器を構築する。ラベル平滑化は革新的に、タスクをマルチクラス分類とマルチラベル分類にスムーズに変換するために適応する。この研究は、BERTとULMFiTから微調整された最良のモデルが94.3%のトップ3の精度に達することを示した。
論文参考訳（メタデータ） (2021-04-12T15:18:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。