論文の概要: Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.01358v1
- Date: Mon, 1 Jul 2024 15:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:00:48.431984
- Title: Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識に基づく言語間整合性の評価
- Authors: Xiaolin Xing, Zhiwei He, Haoyu Xu, Xing Wang, Rui Wang, Yu Hong,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
- 参考スコア(独自算出の注目度): 16.942897938964638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the cross-lingual inconsistencies observed in Large Language Models (LLMs), such as ChatGPT, Llama, and Baichuan, which have shown exceptional performance in various Natural Language Processing (NLP) tasks. Despite their successes, these models often exhibit significant inconsistencies when processing the same concepts across different languages. This study focuses on three primary questions: the existence of cross-lingual inconsistencies in LLMs, the specific aspects in which these inconsistencies manifest, and the correlation between cross-lingual consistency and multilingual capabilities of LLMs.To address these questions, we propose an innovative evaluation method for Cross-lingual Semantic Consistency (xSC) using the LaBSE model. We further introduce metrics for Cross-lingual Accuracy Consistency (xAC) and Cross-lingual Timeliness Consistency (xTC) to comprehensively assess the models' performance regarding semantic, accuracy, and timeliness inconsistencies. By harmonizing these metrics, we provide a holistic measurement of LLMs' cross-lingual consistency. Our findings aim to enhance the understanding and improvement of multilingual capabilities and interpretability in LLMs, contributing to the development of more robust and reliable multilingual language models.
- Abstract(参考訳): 本稿では,ChatGPT,Llama,Baichuanなどの大規模言語モデル(LLM)における言語間不整合について検討し,様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な問題に焦点を当て,これらの問題に対処するために,LaBSEモデルを用いた言語間セマンティック一貫性(xSC)の革新的評価手法を提案する。
さらに,言語間整合性(xAC)と言語間整合性(xTC)の指標を導入し,意味,正確性,タイムラインの不整合性に関するモデルの性能を総合的に評価する。
これらのメトリクスを調和させることで、LLMの言語間整合性の総合的な測定を行う。
本研究の目的は,LLMにおける多言語能力と解釈可能性の理解と向上を向上し,より堅牢で信頼性の高い多言語言語モデルの開発に寄与することにある。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
本稿では,大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメント手法を提案する。
実験結果から,質問アライメント手法は多様な推論シナリオにおける多言語のパフォーマンス向上に有効であることが示唆された。
その成功のメカニズムを理解するために、表現空間、チェーン・オブ・シンク、翻訳データスケールを分析する。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Cross-Lingual Consistency of Factual Knowledge in Multilingual Language
Models [2.6626950367610402]
本研究では,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。
本稿では,言語間の知識一貫性を精度から独立して評価するために,ランク付けに基づく一貫性尺度(RankC)を提案する。
論文 参考訳(メタデータ) (2023-10-16T13:19:17Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - The Impact of Cross-Lingual Adjustment of Contextual Word
Representations on Zero-Shot Transfer [3.300216758849348]
mBERTやXLM-Rのような大規模な多言語言語モデルは、様々なIRやNLPタスクにおいてゼロショットの言語間転送を可能にする。
そこで本研究では,mBERTの並列コーパスを用いた言語間相互調整のためのデータ・計算効率向上手法を提案する。
類型的に多様な言語(スペイン語、ロシア語、ベトナム語、ヒンディー語)を実験し、その実装を新しいタスクに拡張する。
NER, XSR, 言語間QAを改良した4言語でのNLIの再生ゲインについて検討した。
論文 参考訳(メタデータ) (2022-04-13T15:28:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。