論文の概要: Susu Box or Piggy Bank: Assessing Cultural Commonsense Knowledge between Ghana and the U.S
- arxiv url: http://arxiv.org/abs/2410.16451v1
- Date: Mon, 21 Oct 2024 19:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:11.312642
- Title: Susu Box or Piggy Bank: Assessing Cultural Commonsense Knowledge between Ghana and the U.S
- Title(参考訳): すす箱・ピギーバンク:ガーナとアメリカの間の文化常識知識の評価
- Authors: Christabel Acquaye, Haozhe An, Rachel Rudinger,
- Abstract要約: AMAMMER$epsilon$は、英語のLLMの常識知識を評価するために設計された525の多重選択質問からなるテストセットである。
我々は、ガーナ人と米国の参加者による調査を含む多段階のプロセスを使用する。
単体では、モデルはガーナのアノテーターよりもアメリカのアノテーターの好みに沿った答えの選択を好む。
- 参考スコア(独自算出の注目度): 17.90306410870731
- License:
- Abstract: Recent work has highlighted the culturally-contingent nature of commonsense knowledge. We introduce AMAMMER${\epsilon}$, a test set of 525 multiple-choice questions designed to evaluate the commonsense knowledge of English LLMs, relative to the cultural contexts of Ghana and the United States. To create AMAMMER${\epsilon}$, we select a set of multiple-choice questions (MCQs) from existing commonsense datasets and rewrite them in a multi-stage process involving surveys of Ghanaian and U.S. participants. In three rounds of surveys, participants from both pools are solicited to (1) write correct and incorrect answer choices, (2) rate individual answer choices on a 5-point Likert scale, and (3) select the best answer choice from the newly-constructed MCQ items, in a final validation step. By engaging participants at multiple stages, our procedure ensures that participant perspectives are incorporated both in the creation and validation of test items, resulting in high levels of agreement within each pool. We evaluate several off-the-shelf English LLMs on AMAMMER${\epsilon}$. Uniformly, models prefer answers choices that align with the preferences of U.S. annotators over Ghanaian annotators. Additionally, when test items specify a cultural context (Ghana or the U.S.), models exhibit some ability to adapt, but performance is consistently better in U.S. contexts than Ghanaian. As large resources are devoted to the advancement of English LLMs, our findings underscore the need for culturally adaptable models and evaluations to meet the needs of diverse English-speaking populations around the world.
- Abstract(参考訳): 最近の研究は、コモンセンス知識の文化的に欠かせない性質を浮き彫りにした。
AMAMMER${\epsilon}$は、ガーナとアメリカの文化的文脈に対して、英語LLMの常識的知識を評価するために設計された525の多重選択質問からなるテストセットである。
AMAMMER${\epsilon}$を作成するために、既存のCommonsenseデータセットから複数の選択質問(MCQ)を選択し、ガーナ人と米国の参加者による調査を含む多段階のプロセスで書き直します。
両プールの参加者は,(1) 正解と誤解の選択,(2) 個別解答の選択率を5点様々に評価し,(3) 新たに構築したMCQ項目からベスト解答選択を最終検証ステップで選択する。
複数の段階に参加者を参加させることで、参加者の視点がテスト項目の作成と検証の両方に組み込まれ、その結果、各プール内で高い合意が得られます。
AMAMMER${\epsilon}$で市販の英語LLMをいくつか評価した。
単体では、モデルはガーナのアノテーターよりもアメリカのアノテーターの好みに沿った答えの選択を好む。
さらに、テスト項目が文化的な文脈(ガーナまたはアメリカ)を指定する場合、モデルは適応する能力を示すが、アメリカにおけるパフォーマンスはガーナ語よりも一貫して優れている。
英語LLMの進歩に多大な資源が注がれる中、世界中の多様な英語話者のニーズを満たすために、文化的に適応可能なモデルと評価の必要性が浮き彫りになっている。
関連論文リスト
- JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - DebateQA: Evaluating Question Answering on Debatable Knowledge [13.199937786970027]
我々は2,941質問のデータセットであるDebateQAを紹介する。
私たちは、パースペクティブ多様性と論争意識の2つの指標を開発します。
DebateQAを2つのメトリクスで使用し、12の人気のある大規模言語モデルを評価します。
論文 参考訳(メタデータ) (2024-08-02T17:54:34Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、23の言語にまたがる1.5Kの文化的に特定の質問のコレクションであり、51の文化的に翻訳された質問は、英語から22の言語に翻訳されている。
コミュニティのWebフォーラムから自然に発生する質問を収集し、ネイティブスピーカーを雇い、FijianやKirndiといった未調査言語をカバーする質問を書いています。
私たちのデータセットには、文化的トピック(伝統、法律、ニュースなど)とネイティブスピーカーの言語使用を反映した、多種多様な複雑な質問が含まれています。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - The PRISM Alignment Project: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models [67.38144169029617]
PRISMは,75か国から1500人の多様な参加者を対象に,社会デマトグラフィーをマッピングし,嗜好を提示する新しいデータセットである。
PRISMは、(i)ヒトのフィードバックデータにおける地理的および人口統計学的関与、(ii)集団福祉(UKとUS)を理解するための2つの国勢調査表現サンプル、(iii)全ての評価が詳細な参加者プロファイルに関連付けられている個別化されたフィードバックに寄与する。
論文 参考訳(メタデータ) (2024-04-24T17:51:36Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。