論文の概要: Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge Retrieval
from Foundation Language Models
- arxiv url: http://arxiv.org/abs/2305.13675v1
- Date: Tue, 23 May 2023 04:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 19:03:52.757353
- Title: Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge Retrieval
from Foundation Language Models
- Title(参考訳): ポリグロットかノーか?
基礎言語モデルによる多言語百科事典知識検索の測定
- Authors: Tim Schott, Daniel Furman, and Shreshta Bhat
- Abstract要約: 幅広い言語にまたがる百科事典の知識を検索する基礎モデルの有効性を評価する。
20の異なる言語で303kの事実関連を含む新しいデータセットを作成します。
多言語設定で5つの基礎モデルをベンチマークし、英語のみの設定で20モデルの多種多様なセットをベンチマークした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we evaluate the capacity for foundation models to retrieve
encyclopedic knowledge across a wide range of languages, topics, and contexts.
To support this effort, we 1) produce a new dataset containing 303k factual
associations in 20 different languages, 2) formulate a new counterfactual
knowledge assessment, Polyglot or Not, and 3) benchmark 5 foundation models in
a multilingual setting and a diverse set of 20 models in an English-only
setting. We observed significant accuracy differences in models of interest,
with Meta's LLaMA topping both the multilingual and English-only assessments.
Error analysis reveals a significant deficiency in LLaMA's ability to retrieve
facts in languages written in the Cyrillic script and gaps in its understanding
of facts based on the location and gender of entailed subjects. Ultimately, we
argue that the promise of utilizing foundation language models as bonafide
polyglots is greatly diminished when they are tasked with retrieving
information in languages other than English. Supporting code
(https://github.com/daniel-furman/Polyglot-or-Not) and dataset
(https://huggingface.co/datasets/Polyglot-or-Not/Fact-Completion) are openly
released.
- Abstract(参考訳): 本研究では,多種多様な言語,話題,文脈にまたがる百科事典知識を取得するための基礎モデルの能力を評価する。
この取り組みをサポートするために
1) 20言語で303kの事実関連を含む新しいデータセットを作成する。
2 新たな反事実的知識評価、ポリグロットの有無を定式化し、
3) ベンチマーク5では、多言語設定で基礎モデルを、英語のみの設定で20モデルを多用した。
メタのLLaMAは多言語および英語のみの評価を上回り, 興味のあるモデルに有意な精度差が認められた。
誤り分析は、Cyrillicスクリプトで書かれた言語で事実を検索するLLaMAの能力の欠如と、関連する被験者の位置と性別に基づく事実の理解のギャップを明らかにしている。
究極的には、ボナフィド多言語として基礎言語モデルを活用するという約束は、英語以外の言語で情報を検索する任務を負うと大幅に減少する。
サポートコード(https://github.com/daniel-furman/Polyglot-or-Not)とデータセット(https://huggingface.co/datasets/Polyglot-or-Not/Fact-Completion)が公開されている。
関連論文リスト
- MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Evaluating the Elementary Multilingual Capabilities of Large Language
Models with MultiQ [15.844303418745692]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。
近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。
我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文 参考訳(メタデータ) (2024-03-06T16:01:44Z) - Multi-FAct: Assessing Multilingual LLMs' Multi-Regional Knowledge using
FActScore [16.295418365993033]
大規模言語モデル(LLM)は、確立された知識と矛盾するテキストを生成するために、事実の幻覚を起こす傾向がある。
本稿では,言語と地理的領域をまたいだ多言語LLMの事実的精度を体系的に評価する。
論文 参考訳(メタデータ) (2024-02-28T04:43:46Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Cross-Lingual Consistency of Factual Knowledge in Multilingual Language
Models [2.6626950367610402]
本研究では,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。
本稿では,言語間の知識一貫性を精度から独立して評価するために,ランク付けに基づく一貫性尺度(RankC)を提案する。
論文 参考訳(メタデータ) (2023-10-16T13:19:17Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。
また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-09T06:34:21Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。