論文の概要: KnowCoder-X: Boosting Multilingual Information Extraction via Code
- arxiv url: http://arxiv.org/abs/2411.04794v2
- Date: Tue, 08 Apr 2025 16:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:45.292552
- Title: KnowCoder-X: Boosting Multilingual Information Extraction via Code
- Title(参考訳): KnowCoder-X: コードによる多言語情報抽出を促進する
- Authors: Yuxin Zuo, Wenxuan Jiang, Wenxuan Liu, Zixuan Li, Long Bai, Hanbin Wang, Yutao Zeng, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 汎用情報抽出のための高度な言語間および多言語機能を備えたコードLLMであるKnowCoder-Xを提案する。
Pythonクラスを使用して多言語スキーマの表現を標準化し、さまざまな言語で一貫したオントロジーを確保する。
KnowCoder-XはIEアライメントを強化することで、言語間IE転送を大幅に強化する。
- 参考スコア(独自算出の注目度): 62.69772800910482
- License:
- Abstract: Empirical evidence indicates that LLMs exhibit spontaneous cross-lingual alignment. However, although LLMs show promising cross-lingual alignment in IE, a significant imbalance across languages persists, highlighting an underlying deficiency. To address this, we propose KnowCoder-X, a powerful code LLM with advanced cross-lingual and multilingual capabilities for universal information extraction. Firstly, it standardizes the representation of multilingual schemas using Python classes, ensuring a consistent ontology across different languages. Then, IE across languages is formulated as a unified code generation task. Secondly, we enhance the model's cross-lingual transferability through IE cross-lingual alignment instruction tuning on a translated instance prediction task we proposed. During this phase, we also construct a high-quality and diverse bilingual IE parallel dataset with 257k samples, called ParallelNER, synthesized by our proposed robust three-stage pipeline, with manual annotation to ensure quality. Although without training in 29 unseen languages, KnowCoder-X surpasses ChatGPT by $30.17\%$ and SoTA by $20.03\%$, thereby demonstrating superior cross-lingual IE capabilities. Comprehensive evaluations on 64 IE benchmarks in Chinese and English under various settings demonstrate that KnowCoder-X significantly enhances cross-lingual IE transfer through boosting the IE alignment. Our code and dataset are available at: https://github.com/ICT-GoKnow/KnowCoder
- Abstract(参考訳): 実証的な証拠は、LLMが自然に言語間アライメントを示すことを示している。
しかし、LLMはIEで有望な言語間アライメントを示すが、言語間の大きな不均衡が持続し、基盤となる欠陥が強調される。
そこで本稿では,情報抽出のための高度な言語間および多言語機能を備えた強力なLLMであるKnowCoder-Xを提案する。
まず、Pythonクラスを使用して多言語スキーマの表現を標準化し、異なる言語で一貫したオントロジーを保証する。
そして、言語間のIEは統一コード生成タスクとして定式化されます。
第2に、提案した翻訳インスタンス予測タスクにおいて、IEの言語間アライメント命令チューニングにより、モデルの言語間トランスファビリティを向上させる。
このフェーズでは、高品質で多様なバイリンガルなIE並列データセット(ParallelNER)も構築しています。
29の未確認言語でトレーニングされていないが、KnowCoder-X は ChatGPT を$30.17\%、SoTA を$20.03\% で上回り、より優れた言語間IE 機能を示している。
さまざまな設定下で、中国語と英語の64のIEベンチマークに関する総合的な評価は、KnowCoder-XがIEアライメントを強化することで、言語間IE転送を大幅に強化することを示している。
私たちのコードとデータセットは、https://github.com/ICT-GoKnow/KnowCoder.comで利用可能です。
関連論文リスト
- Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。
スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。
我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文 参考訳(メタデータ) (2025-02-20T18:45:43Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - CodeIE: Large Code Generation Models are Better Few-Shot Information
Extractors [92.17328076003628]
大規模コーパスで事前訓練された大規模言語モデル(LLM)は、多くのNLPタスクにおいて、驚くべき数ショットの学習能力を示している。
本稿では、自然言語の代わりに構造化された出力をコード形式で再キャストすることを提案する。
論文 参考訳(メタデータ) (2023-05-09T18:40:31Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。