論文の概要: ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2502.21228v3
- Date: Sat, 08 Nov 2025 19:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:55:59.866865
- Title: ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
- Title(参考訳): ECLeKTic: 言語間知識伝達評価のための新しい課題セット
- Authors: Omer Goldman, Uri Shaham, Dan Malkin, Sivan Eiger, Avinatan Hassidim, Yossi Matias, Joshua Maynez, Adi Mayrav Gilady, Jason Riesa, Shruti Rijhwani, Laura Rimell, Idan Szpektor, Reut Tsarfaty, Matan Eyal,
- Abstract要約: 本稿では,言語間の知識伝達を評価する多言語クローズドブックQAデータセットであるECLeKTicを提案する。
われわれは12言語でWikipediaの記事の存在と欠落を利用して、ある言語で事前学習されているが、他の言語では利用できない可能性のある情報の断片を検出した。
現在のSOTAモデルは、知識が獲得された言語における質問に対する回答を予測できるとしても、言語間での知識の効果的な共有に苦慮していることを示す。
- 参考スコア(独自算出の注目度): 40.3285891624575
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: To achieve equitable performance across languages, large language models (LLMs) must be able to abstract knowledge beyond the language in which it was learnt. However, the current literature lacks reliable ways to measure LLMs' capability of such cross-lingual knowledge transfer. To that end, we present ECLeKTic, a multilingual closed-book QA dataset that Evaluates Cross-Lingual Knowledge Transfer in a simple, black-box manner. Concretely, we used the presence and absence of Wikipedia articles in 12 languages to detect pieces of information that were likely available during pre-training in one of the languages but not in the others. We curate ECLeKTic as a set of fact-seeking questions over this kind of information, in all the different languages. Therefore, in order to solve ECLeKTic the model is required to transfer knowledge between languages. We evaluated 8 LLMs and showed that current SOTA models struggle to effectively share knowledge across languages, even if they can predict the answer for questions in the language in which the knowledge was acquired.
- Abstract(参考訳): 言語間での公平なパフォーマンスを達成するためには、大きな言語モデル(LLM)は、学習された言語以外の知識を抽象化できなければならない。
しかし、現在の文献は、そのような言語間知識伝達のLSMの能力を測定するための信頼性に欠ける。
そこで我々は,多言語クローズドブックQAデータセットであるECLeKTicを提案する。
具体的には、12言語におけるWikipediaの記事の存在と欠如を利用して、ある言語で事前学習されているが、他の言語では利用できない情報の一部を検出する。
我々はECLeKTicを、あらゆる言語において、この種の情報に関する事実を探究する一連の質問としてキュレートする。
したがって、ECLeKTicを解くためには、言語間で知識を伝達する必要がある。
その結果,現在のSOTAモデルは,知識が獲得された言語における質問に対する回答を予測できたとしても,言語間での知識の効果的な共有に苦慮していることがわかった。
関連論文リスト
- LLMs Are Globally Multilingual Yet Locally Monolingual: Exploring Knowledge Transfer via Language and Thought Theory [3.7752830020595787]
我々は、言語と思考理論による非英語から英語への移動を探求する。
本稿では,入力言語,内的認知プロセス,知識の関係を解析するL2T(Language-to-Thought)プロンプト戦略を提案する。
論文 参考訳(メタデータ) (2025-05-30T09:47:25Z) - Language Models' Factuality Depends on the Language of Inquiry [36.466186024957075]
13言語にまたがる1万の国関連事実のベンチマークを導入する。
本稿では,Factual Recall Score, Knowledge Transferability Score, Cross-Lingual Factual Knowledge Transferability Scoreの3つの新しい指標を提案する。
我々の結果は、今日の最先端のLMの根本的な弱点を明らかにします。
論文 参考訳(メタデータ) (2025-02-25T08:27:18Z) - CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。
言語モデル(CALM)の言語間知識の整合性について検討する。
我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文 参考訳(メタデータ) (2025-01-30T16:15:38Z) - Cross-Lingual Multi-Hop Knowledge Editing [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation [21.980770995466134]
言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。
この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
論文 参考訳(メタデータ) (2024-02-18T07:24:34Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。