論文の概要: DLAMA: A Framework for Curating Culturally Diverse Facts for Probing the
Knowledge of Pretrained Language Models
- arxiv url: http://arxiv.org/abs/2306.05076v1
- Date: Thu, 8 Jun 2023 09:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:07:32.718600
- Title: DLAMA: A Framework for Curating Culturally Diverse Facts for Probing the
Knowledge of Pretrained Language Models
- Title(参考訳): DLAMA:事前訓練された言語モデルの知識を検証するための文化的多言語ファクトの計算フレームワーク
- Authors: Amr Keleg and Walid Magdy
- Abstract要約: 多言語モデルから事実をリコールするイングリッシュプロンプトを使用すると、非イングリッシュプロンプトを使用するよりもはるかに優れた、一貫性のあるパフォーマンスが得られる。
本稿では,文化的に多様であるウィキデータから実写3倍体をキュレートするための新しい枠組みを提案する。
よりバランスのとれたベンチマーク(DLAMA-v1)を持つことは、mBERTが西洋の事実に対して非西洋の事実よりも優れていることを裏付ける。
- 参考スコア(独自算出の注目度): 5.584060970507506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A few benchmarking datasets have been released to evaluate the factual
knowledge of pretrained language models. These benchmarks (e.g., LAMA, and
ParaRel) are mainly developed in English and later are translated to form new
multilingual versions (e.g., mLAMA, and mParaRel). Results on these
multilingual benchmarks suggest that using English prompts to recall the facts
from multilingual models usually yields significantly better and more
consistent performance than using non-English prompts. Our analysis shows that
mLAMA is biased toward facts from Western countries, which might affect the
fairness of probing models. We propose a new framework for curating factual
triples from Wikidata that are culturally diverse. A new benchmark DLAMA-v1 is
built of factual triples from three pairs of contrasting cultures having a
total of 78,259 triples from 20 relation predicates. The three pairs comprise
facts representing the (Arab and Western), (Asian and Western), and (South
American and Western) countries respectively. Having a more balanced benchmark
(DLAMA-v1) supports that mBERT performs better on Western facts than
non-Western ones, while monolingual Arabic, English, and Korean models tend to
perform better on their culturally proximate facts. Moreover, both monolingual
and multilingual models tend to make a prediction that is culturally or
geographically relevant to the correct label, even if the prediction is wrong.
- Abstract(参考訳): 事前学習された言語モデルの事実知識を評価するために、いくつかのベンチマークデータセットがリリースされた。
これらのベンチマーク(LAMAやParaRelなど)は主に英語で開発され、後に新しい多言語版(mLAMAやmParaRelなど)に翻訳される。
これらの多言語ベンチマークの結果は、英語のプロンプトを用いて、多言語モデルから事実を思い出すと、非英語のプロンプトよりもはるかに優れた、一貫性のあるパフォーマンスが得られることを示唆している。
分析の結果,ムラマは西側諸国の事実に偏っており,調査モデルの公平性に影響を与えている可能性が示唆された。
文化的に多様なウィキデータから事実のトリプルをキュレートするための新しいフレームワークを提案する。
新しいベンチマークdlama-v1は、20の関連述語から78,259のトリプルを持つ3組のコントラスト文化の事実三重項で構成されている。
3つのペアはそれぞれ、(アラブと西部)、(アジアと西部)、(南米と西部)を表す事実で構成されている。
よりバランスのとれたベンチマーク (DLAMA-v1) を持つことは、mBERTが西洋の事実に対して非西洋の事実よりも優れており、一方モノリンガルのアラビア語、英語、韓国のモデルは文化的に近縁な事実に対して良いパフォーマンスを示す傾向にある。
さらに、単言語モデルと多言語モデルの両方が、たとえ予測が間違っていても、正しいラベルに文化的または地理的に関連のある予測をする傾向がある。
関連論文リスト
- MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs [6.781972039785424]
生成的大規模言語モデル(LLM)は有害なバイアスやステレオタイプを示すことが示されている。
MBBQは、オランダ語、スペイン語、トルコ語でよく見られるステレオタイプを測定するデータセットである。
その結果、文化的な変化を抑えながら、英語以外の言語では、英語よりも偏見に悩まされていることが確認された。
論文 参考訳(メタデータ) (2024-06-11T13:23:14Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - MuLan: A Study of Fact Mutability in Language Models [50.626787909759976]
信頼できる言語モデルは、理想的には変更可能な事実をそのようなものとして識別し、それに従って処理する。
MuLanは、英語モデルが時間一貫性を予測できる能力を評価するためのベンチマークです。
論文 参考訳(メタデータ) (2024-04-03T19:47:33Z) - Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment to Cultural Reasoning [44.53966523376327]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in
Foundation Models [0.0]
我々は,幅広い言語文脈において,百科事典的知識を想起する基礎モデルの能力を評価する。
我々は,303万件のファクト・アソシエーションと反ファクト・アソシエーションを組み合わせた20言語データセットを作成した。
多言語テストでは5つのモデルを評価し、英語のみのテストでは24のモデルの多様なセットをベンチマークする。
論文 参考訳(メタデータ) (2023-05-23T04:31:39Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Factual Consistency of Multilingual Pretrained Language Models [0.0]
多言語言語モデルがモノリンガルモデルよりも一貫性があるかどうかを検討する。
mBERT は英語のパラフレーズで BERT と同程度に矛盾している。
mBERT と XLM-R はどちらも、英語では高い一貫性を示しており、他の45の言語ではさらに矛盾している。
論文 参考訳(メタデータ) (2022-03-22T09:15:53Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。