Fugu-MT 論文翻訳(概要): BertaQA: How Much Do Language Models Know About Local Culture?

論文の概要: BertaQA: How Much Do Language Models Know About Local Culture?

arxiv url: http://arxiv.org/abs/2406.07302v1
Date: Tue, 11 Jun 2024 14:30:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 15:34:38.968894
Title: BertaQA: How Much Do Language Models Know About Local Culture?
Title（参考訳）: BertaQA: 言語モデルは地方文化についてどのくらい知っているか?
Authors: Julen Etxaniz, Gorka Azkune, Aitor Soroa, Oier Lopez de Lacalle, Mikel Artetxe,
Abstract要約: 本稿では,英語とバスク語に平行なトリビアデータセットであるBertaQAを紹介する。データセットは、バスク文化に関連する質問のあるローカルサブセットと、より広い関心を持つ質問を持つグローバルサブセットで構成されている。バスク語での事前学習は、英語で質問しても、バスク語文化におけるモデルのパフォーマンスを大幅に向上させることを示す。
参考スコア（独自算出の注目度）: 33.27901483916244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) exhibit extensive knowledge about the world, but most evaluations have been limited to global or anglocentric subjects. This raises the question of how well these models perform on topics relevant to other cultures, whose presence on the web is not that prominent. To address this gap, we introduce BertaQA, a multiple-choice trivia dataset that is parallel in English and Basque. The dataset consists of a local subset with questions pertinent to the Basque culture, and a global subset with questions of broader interest. We find that state-of-the-art LLMs struggle with local cultural knowledge, even as they excel on global topics. However, we show that continued pre-training in Basque significantly improves the models' performance on Basque culture, even when queried in English. To our knowledge, this is the first solid evidence of knowledge transfer from a low-resource to a high-resource language. Our analysis sheds light on the complex interplay between language and knowledge, and reveals that some prior findings do not fully hold when reassessed on local topics. Our dataset and evaluation code are available under open licenses at https://github.com/juletx/BertaQA.
Abstract（参考訳）: 大規模言語モデル(LLM)は、世界に関する広範な知識を示すが、ほとんどの評価は、グローバルまたはアングロセントリックな主題に限られている。このことは、これらのモデルが他の文化に関連するトピックでどれだけうまく機能するかという疑問を提起する。このギャップに対処するために、英語とバスク語で平行な多重選択トリビアデータセットであるBertaQAを導入する。データセットは、バスク文化に関連する質問のあるローカルサブセットと、より広い関心を持つ質問を持つグローバルサブセットで構成されている。我々は,現在最先端のLLMが,グローバルな話題に長けていても,地域文化の知識に苦しむことに気付く。しかし,バスク語による事前学習は,英語で質問しても,バスク語文化におけるモデルの性能を著しく向上させることを示した。私たちの知る限りでは、これは低リソース言語から高リソース言語への知識移転の確固たる証拠としては初めてのものです。本分析では,言語と知識の複雑な相互作用に光を当てた上で,局所的な話題の再評価において,事前の発見が完全には成立しないことが明らかとなった。データセットと評価コードは、https://github.com/juletx/BertaQA.comのオープンライセンスで利用可能です。

関連論文リスト

The World According to LLMs: How Geographic Origin Influences LLMs' Entity Deduction Capabilities [12.46765303763981]
大きな言語モデル(LLM)は明示的なバイアスを軽減するために広範囲に調整されてきたが、事前学習データに根ざした暗黙のバイアスがしばしば現れる。我々は、モデルが積極的に質問するときにどのように振る舞うかを研究する。マルチターン推論タスクである20の質問ゲームは、この目的のために理想的なテストベッドとして機能する。
論文参考訳（メタデータ） (2025-08-07T15:53:30Z)
MELAC: Massive Evaluation of Large Language Models with Alignment of Culture in Persian Language [0.8182812460605992]
この研究はペルシア語とイラン文化に焦点を当てている。イラン法、ペルシア語文法、ペルシア語イディオム、大学入試などのトピックについて、LSMを評価するために特別に設計された19の新たな評価データセットを紹介した。これらのデータセットを用いて41の著名なLCMをベンチマークし,その分野における既存の文化的・言語的評価ギャップを埋めることを目的とした。
論文参考訳（メタデータ） (2025-08-01T14:46:57Z)
MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文参考訳（メタデータ） (2025-05-27T19:29:40Z)
Fluent but Culturally Distant: Can Regional Training Teach Cultural Understanding? [17.231806929840015]
我々は,5つの指標と5つのグローバルLLMを,価値と実践の2つの重要な側面に沿って評価する。すべての4つのタスクにおいて、Indicモデルはグローバルモデルよりもインド文化の規範と密に一致していないことが分かる。この失敗は、高品質で、翻訳されず、文化的に根拠のない事前訓練と微調整のデータが不足していることに遡る。
論文参考訳（メタデータ） (2025-05-25T01:59:23Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文参考訳（メタデータ） (2025-04-07T14:57:06Z)
Multilingual != Multicultural: Evaluating Gaps Between Multilingual Capabilities and Cultural Alignment in LLMs [2.5212698425008377]
大規模言語モデル(LLM)は、グローバル言語全体でますます能力を高めつつある。しかし、言語間のコミュニケーション能力が必ずしも適切な文化的表現に変換されるとは限らない。 GoogleのGemmaモデルとOpenAIのターボシリーズの2つのモデルを比較します。言語能力と文化的アライメントの間には、一貫した関係は見つからない。
論文参考訳（メタデータ） (2025-02-23T11:02:41Z)
Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation [71.59208664920452]
多言語データセットの文化的バイアスは、グローバルベンチマークとしての有効性に重大な課題をもたらす。 MMLUの進歩は西洋中心の概念の学習に大きく依存しており、文化に敏感な知識を必要とする質問の28%がそうである。改良されたMMLUであるGlobal MMLUをリリースし,42言語を対象に評価を行った。
論文参考訳（メタデータ） (2024-12-04T13:27:09Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文参考訳（メタデータ） (2024-06-25T17:45:26Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese [14.463110500907492]
大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。言語に埋め込まれた知識と文化的ニュアンスを組み込んだQAデータセットを生成できるかどうかは不明だ。本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。
論文参考訳（メタデータ） (2024-02-27T08:24:32Z)
Global Voices, Local Biases: Socio-Cultural Prejudices across Languages [22.92083941222383]
人間の偏見はユビキタスであるが、一様ではない。言語、文化、社会的境界を越えて格差が存在する。本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にする。より広く普及している社会的バイアスを包含するために、毒性、能力主義などにわたる新しいバイアス次元について検討する。
論文参考訳（メタデータ） (2023-10-26T17:07:50Z)
Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (2023-06-11T23:27:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。