Fugu-MT 論文翻訳(概要): Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in Foundation Models

論文の概要: Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in Foundation Models

arxiv url: http://arxiv.org/abs/2305.13675v2
Date: Wed, 6 Dec 2023 01:54:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 19:13:55.020443
Title: Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in Foundation Models
Title（参考訳）: ポリグロットかノーか? 基礎モデルにおける多言語百科事典知識の測定
Authors: Tim Schott, Daniel Furman, and Shreshta Bhat
Abstract要約: 我々は,幅広い言語文脈において,百科事典的知識を想起する基礎モデルの能力を評価する。我々は,303万件のファクト・アソシエーションと反ファクト・アソシエーションを組み合わせた20言語データセットを作成した。多言語テストでは5つのモデルを評価し、英語のみのテストでは24のモデルの多様なセットをベンチマークする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we assess the ability of foundation models to recall encyclopedic knowledge across a wide range of linguistic contexts. To support this, we: 1) produce a 20-language dataset that contains 303k factual associations paired with counterfactuals, 2) evaluate 5 models in a multilingual test, and 3) benchmark a diverse set of 24 models in an English-only test. Meta's LLaMA achieves the highest scores in both multilingual and English-only evaluations. Yet, an analysis of LLaMA's errors reveals significant limitations in its ability to recall facts in languages other than English, plus difficulties related to the location and gender of fact subjects. Overall, our findings suggest that today's foundation models are far from polyglots.
Abstract（参考訳）: 本研究では,多岐にわたる言語文脈における百科事典的知識を想起する基礎モデルの能力を評価する。これをサポートするために、私たちは: 1) 反事実と組み合わせた303万の事実関連を含む20言語データセットを作成する。 2)多言語テストで5つのモデルを評価し、 3) 英語のみのテストで24モデルの多様なセットをベンチマークする。メタのLLaMAは多言語と英語のみの評価で最高点を達成している。しかし、ラマの誤りの分析は、英語以外の言語で事実を思い出す能力に重大な制限があることを示し、事実対象の場所や性別に関する困難も示している。全体として、今日の基礎モデルは多言語とは程遠いことを示唆している。

関連論文リスト

Evaluating Modern Large Language Models on Low-Resource and Morphologically Rich Languages:A Cross-Lingual Benchmark Across Cantonese, Japanese, and Turkish [12.286855282078305]
GPT-4o, GPT-4, Claude3.5Sonnet, LLaMA3.1, MistralLarge2, LLaMA-2Chat13B, Mistral7B Instructを評価した。我々のベンチマークは、オープンドメイン質問応答、文書要約、英語からXへの翻訳、文化的根拠のある対話の4つのタスクにまたがっている。
論文参考訳（メタデータ） (2025-11-05T22:09:53Z)
Learning the Topic, Not the Language: How LLMs Classify Online Immigration Discourse Across Languages [0.0]
大規模言語モデル(LLM)は、スケーラブルで正確な分析を可能にすることによって、社会科学の研究を変革している。我々は、移民関連ツイートを分類するために、モノリンガル、バイリンガル、マルチリンガルデータセット上の軽量LLaMA 3.2-3Bモデルを微調整する。最小限の言語固有の微調整が言語間話題の検出を可能にするか、ターゲット言語を追加することで事前学習バイアスが修正されるかを評価する。
論文参考訳（メタデータ） (2025-08-08T16:23:24Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文参考訳（メタデータ） (2025-04-25T15:39:04Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳（メタデータ） (2024-06-17T01:54:27Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Evaluating the Elementary Multilingual Capabilities of Large Language Models with MultiQ [16.637598165238934]
大規模言語モデル(LLM)は、世界中の英語話者の大多数を含むすべての人にサービスを提供する必要がある。近年の研究では、意図した用途に制限があるにもかかわらず、多くの言語でLSMを促すことが示されている。我々は、27.4kのテスト質問に答える基本的なオープンエンド質問のための新しい銀標準ベンチマークであるMultiQを紹介する。
論文参考訳（メタデータ） (2024-03-06T16:01:44Z)
Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models [2.6626950367610402]
本研究では,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。本稿では,言語間の知識一貫性を精度から独立して評価するために,ランク付けに基づく一貫性尺度(RankC)を提案する。
論文参考訳（メタデータ） (2023-10-16T13:19:17Z)
Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文参考訳（メタデータ） (2023-09-16T11:07:52Z)
SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文参考訳（メタデータ） (2023-09-09T11:42:22Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Probing Multilingual Language Models for Discourse [0.0]
XLM-RoBERTaファミリーのモデルが常に最高のパフォーマンスを示していることが分かりました。また, モデル蒸留は, 文表現の言語間移動能力に悪影響を及ぼす可能性が示唆された。
論文参考訳（メタデータ） (2021-06-09T06:34:21Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。