Fugu-MT 論文翻訳(概要): CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs

論文の概要: CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs

arxiv url: http://arxiv.org/abs/2409.05806v3
Date: Mon, 24 Feb 2025 11:02:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 13:51:10.445196
Title: CKnowEdit: A New Chinese Knowledge Editing Dataset for Linguistics, Facts, and Logic Error Correction in LLMs
Title（参考訳）: CKnowEdit:LLMにおける言語学、ファクト、論理エラー訂正のための新しい中国語知識編集データセット
Authors: Jizhan Fang, Tianhe Lu, Yunzhi Yao, Ziyan Jiang, Xin Xu, Ningyu Zhang, Huajun Chen,
Abstract要約: 大規模言語モデル(LLM)における言語的・事実的・論理的誤りの訂正を目的とした,中国初の知識編集データセットであるCKnowEditを紹介する。我々は、古典的なテキスト、イディオム、Baidu Tieba Ruozhibaのコンテンツを含む、幅広い情報源から7種類の知識を収集します。このデータセットを解析することにより、中国語を習得する上で、現在のLLMが直面する課題を強調します。
参考スコア（独自算出の注目度）: 43.13805428301468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chinese, as a linguistic system rich in depth and complexity, is characterized by distinctive elements such as ancient poetry, proverbs, idioms, and other cultural constructs. However, current Large Language Models (LLMs) face limitations in these specialized domains, highlighting the need for the development of comprehensive datasets that can assess, continuously update, and progressively improve these culturally-grounded linguistic competencies through targeted training optimizations. To address this gap, we introduce CKnowEdit, the first-ever Chinese knowledge editing dataset designed to correct linguistic, factual, and logical errors in LLMs. We collect seven types of knowledge from a wide range of sources, including classical texts, idioms, and content from Baidu Tieba Ruozhiba, taking into account the unique polyphony, antithesis, and logical structures inherent in the Chinese language. By analyzing this dataset, we highlight the challenges current LLMs face in mastering Chinese. Furthermore, our evaluation of state-of-the-art knowledge editing techniques reveals opportunities to advance the correction of Chinese knowledge. Code and dataset are available at https://github.com/zjunlp/EasyEdit.
Abstract（参考訳）: 中国語は、深さと複雑さに富んだ言語体系であり、古代の詩、証明、イディオム、その他の文化的構成物などの特徴的要素が特徴である。しかしながら、現在のLarge Language Models (LLMs) は、これらの専門分野において制限に直面しており、ターゲットとなるトレーニング最適化を通じて、これらの文化的に根ざした言語能力を評価し、継続的に更新し、段階的に改善できる包括的なデータセットの開発の必要性を強調している。このギャップに対処するため,中国初の知識編集データセットであるCKnowEditを導入し,LLMの言語的,事実的,論理的エラーを補正する。我々は,古典的テキスト,イディオム,Baidu Tieba Ruozhibaのコンテンツなど,幅広い資料から7種類の知識を収集し,中国語固有の多声性,アンチテーゼ,論理構造を考慮に入れた。このデータセットを解析することにより、中国語を習得する上で、現在のLLMが直面する課題を強調します。さらに,最新の知識編集技術の評価は,中国の知識の訂正を前進させる機会を明らかにしている。コードとデータセットはhttps://github.com/zjunlp/EasyEdit.comで入手できる。

関連論文リスト

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark [50.89916747049978]
有害なコンテンツ検出のための既存のリソースは、主に英語に重点を置いており、中国のデータセットは乏しく、スコープは限られている。我々は,6つの代表的なカテゴリを網羅し,実世界のデータから構築した,中国のコンテンツ害検知のための包括的,専門的な注釈付きベンチマークを提案する。本研究では,人間の注釈付き知識規則と大規模言語モデルからの暗黙的知識を統合した知識強化ベースラインを提案する。
論文参考訳（メタデータ） (2025-06-12T17:57:05Z)
Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? [2.3749120526936465]
本研究では,近年の大型言語モデル (LLM) が,6つの類型的多様言語において,相対的節のアタッチメントのあいまいさをナビゲートする方法について検討する。
論文参考訳（メタデータ） (2025-03-13T19:44:15Z)
Can Code-Switched Texts Activate a Knowledge Switch in LLMs? A Case Study on English-Korean Code-Switching [14.841981996951395]
近年の大規模言語モデル (LLM) は多言語能力を示すが, コーパスの訓練において英語が支配的であったため英語中心である。 Code-switching (CS) は、多言語話者が会話の中で言語を交互に交互に話す現象であり、微妙な文化的・言語的なニュアンスを伝えることができる。その結果,CSは英語のテキストと比較して,特に言語固有の領域において,LSM内の知識を忠実に活性化することができることがわかった。
論文参考訳（メタデータ） (2024-10-24T05:14:03Z)
Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文参考訳（メタデータ） (2024-07-14T17:18:16Z)
Tracing the Roots of Facts in Multilingual Language Models: Independent, Shared, and Transferred Knowledge [16.923674220979]
本研究では,多言語言語モデル(ML-LM)が事実知識をどのように獲得し,表現するかを検討する。 ML-LMにおける事実の獲得と表現の3つのパターンを識別する。本研究は,言語間における一貫した事実知識の維持という課題を浮き彫りにした。
論文参考訳（メタデータ） (2024-03-08T10:09:57Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
Retrieval-augmented Multilingual Knowledge Editing [81.6690436581947]
LLM(Large Language Models)で表される知識は、しばしば誤りであり、時間とともに時代遅れになる可能性がある。知識編集(KE)は、新しい知識を注入するための効果的で経済的な代替手段として発展してきた。本稿では,LLMの新たな知識を更新するためにRetrieval-augmented Multilingual Knowledge Editor (ReMaKE)を提案する。
論文参考訳（メタデータ） (2023-12-20T14:08:58Z)
Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文参考訳（メタデータ） (2023-09-16T11:07:52Z)
Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。 C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文参考訳（メタデータ） (2023-04-17T11:39:53Z)
A Survey of Knowledge Enhanced Pre-trained Language Models [78.56931125512295]
我々は、知識強化事前学習言語モデル(KE-PLMs)の包括的なレビューを行う。 NLUでは、言語知識、テキスト知識、知識グラフ(KG)、ルール知識の4つのカテゴリに分類する。 NLGのKE-PLMは、KGベースと検索ベースに分類される。
論文参考訳（メタデータ） (2022-11-11T04:29:02Z)
CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。 CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文参考訳（メタデータ） (2022-11-04T12:56:12Z)
Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文参考訳（メタデータ） (2022-10-24T21:33:42Z)
Knowledge Based Multilingual Language Model [44.70205282863062]
知識に基づく多言語言語モデル(KMLM)を事前学習するための新しいフレームワークを提案する。我々は、ウィキデータ知識グラフを用いて、大量のコード切替合成文と推論に基づく多言語学習データを生成する。生成したデータの文内構造と文間構造に基づいて,知識学習を容易にするための事前学習タスクを設計する。
論文参考訳（メタデータ） (2021-11-22T02:56:04Z)
Intrinsic Knowledge Evaluation on Chinese Language Models [5.293979881130493]
本稿では, 統語的, 意味的, 常識的, 事実的知識の4つの課題について, 合計39,308ドルの質問に集約する。我々の調査と知識データは、事前訓練された中国のLMを評価するための信頼性の高いベンチマークであることが証明されている。
論文参考訳（メタデータ） (2020-11-29T04:34:39Z)
X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文参考訳（メタデータ） (2020-10-13T05:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。