論文の概要: ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2502.21228v2
- Date: Mon, 03 Mar 2025 09:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:28.972355
- Title: ECLeKTic: a Novel Challenge Set for Evaluation of Cross-Lingual Knowledge Transfer
- Title(参考訳): ECLeKTic: 言語間知識伝達評価のための新しい課題セット
- Authors: Omer Goldman, Uri Shaham, Dan Malkin, Sivan Eiger, Avinatan Hassidim, Yossi Matias, Joshua Maynez, Adi Mayrav Gilady, Jason Riesa, Shruti Rijhwani, Laura Rimell, Idan Szpektor, Reut Tsarfaty, Matan Eyal,
- Abstract要約: 本稿では,多言語クローズドブックQA(CBQA)データセットであるECLeKTicについて述べる。
12言語におけるウィキペディアの記事の存在と欠如を制御し,言語間の不均一なカバレッジを持つ情報を検出する。
我々は,SOTAモデルが,知識が獲得したのと同じ言語の問合せに対して,解答を十分に予測できたとしても,言語間で効率的に知識を共有するのに苦労していることを示す。
- 参考スコア(独自算出の注目度): 42.44703812325259
- License:
- Abstract: To achieve equitable performance across languages, multilingual large language models (LLMs) must be able to abstract knowledge beyond the language in which it was acquired. However, the current literature lacks reliable ways to measure LLMs' capability of cross-lingual knowledge transfer. To that end, we present ECLeKTic, a multilingual closed-book QA (CBQA) dataset that Evaluates Cross-Lingual Knowledge Transfer in a simple, black-box manner. We detected information with uneven coverage across languages by controlling for presence and absence of Wikipedia articles in 12 languages. We generated knowledge-seeking questions in a source language, for which the answer appears in a relevant Wikipedia article and translated them to all other 11 languages, for which the respective Wikipedias lack equivalent articles. Assuming that Wikipedia reflects the prominent knowledge in the LLM's training data, to solve ECLeKTic's CBQA task the model is required to transfer knowledge between languages. Experimenting with 8 LLMs, we show that SOTA models struggle to effectively share knowledge across, languages even if they can predict the answer well for queries in the same language the knowledge was acquired in.
- Abstract(参考訳): 言語間で同等の性能を達成するためには、多言語大言語モデル(LLM)は、取得した言語以外の知識を抽象化できなければならない。
しかし、現在の文献はLLMの言語間知識伝達能力を測定するための信頼性に欠けていた。
そこで我々は,多言語クローズドブックQA(CBQA)データセットであるECLeKTicを提案する。
12言語におけるウィキペディアの記事の存在と欠如を制御し,言語間の不均一なカバレッジを持つ情報を検出する。
我々は、ウィキペディアの関連記事にその答えが現れるソース言語で知識を求める質問を生成し、他の11言語に翻訳した。
ウィキペディアがLLMのトレーニングデータに顕著な知識を反映していると仮定すると、ECLeKTicのCBQAタスクを解くには、言語間で知識を伝達するためにモデルが必要である。
8個の LLM を用いて実験したところ,SOTA モデルでは,知識が獲得したのと同じ言語でのクエリに対して,解答を十分に予測できたとしても,言語間の知識を効果的に共有することは困難であることがわかった。
関連論文リスト
- CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering [42.92810049636768]
大規模言語モデル(LLM)は、言語固有の文化的知識と一般知識の両方を取得するために、多言語コーパスで事前訓練されている。
言語モデル(CALM)の言語間知識の整合性について検討する。
我々は、異なる言語間でモデルの知識を整合させるために、直接選好最適化(DPO)を用いる。
論文 参考訳(メタデータ) (2025-01-30T16:15:38Z) - Cross-Lingual Multi-Hop Knowledge Editing [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - LEIA: Facilitating Cross-lingual Knowledge Transfer in Language Models with Entity-based Data Augmentation [21.980770995466134]
言語間で整列したウィキペディアのエンティティ名を利用する言語適応チューニング手法であるLEIAを紹介する。
この方法は、ターゲット言語コーパスを英語のエンティティ名で拡張し、左から右への言語モデリングを用いてモデルを訓練することを含む。
論文 参考訳(メタデータ) (2024-02-18T07:24:34Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z) - X-FACTR: Multilingual Factual Knowledge Retrieval from Pretrained
Language Models [103.75890012041366]
言語モデル(LM)は、事実の知識を捉えるのに驚くほど成功した。
しかし、LMの実際の表現能力の研究は、ほぼ間違いなく英語で行われている。
我々は23の語型的多様言語に対するクローゼスタイルプローブのベンチマークを作成する。
論文 参考訳(メタデータ) (2020-10-13T05:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。