論文の概要: IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces
- arxiv url: http://arxiv.org/abs/2404.01854v2
- Date: Fri, 13 Sep 2024 02:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-16 23:17:21.092489
- Title: IndoCulture: Exploring Geographically-Influenced Cultural Commonsense Reasoning Across Eleven Indonesian Provinces
- Title(参考訳): IndoCulture: インドネシアの11州にまたがる地理的影響のある文化的コモンセンスの探索
- Authors: Fajri Koto, Rahmad Mahendra, Nurul Aisyah, Timothy Baldwin,
- Abstract要約: 本稿では,言語モデル推論能力に対する地理的要因の影響を理解することを目的としたIndoCultureを紹介する。
地元住民には、事前に定義されたトピックのセットを通じて、文化的コンテキストと妥当な選択肢を手作業で開発するように求めます。
オープンウェイトLlama-3はGPT-4と競合するが、他のオープンウェイトモデルは50%以下で苦戦している。
- 参考スコア(独自算出の注目度): 28.21857463550941
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although commonsense reasoning is greatly shaped by cultural and geographical factors, previous studies have predominantly centered on cultures grounded in the English language, potentially resulting in an Anglocentric bias. In this paper, we introduce IndoCulture, aimed at understanding the influence of geographical factors on language model reasoning ability, with a specific emphasis on the diverse cultures found within eleven Indonesian provinces. In contrast to prior work that has relied on templates (Yin et al., 2022) and online scrapping (Fung et al., 2024), we create IndoCulture by asking local people to manually develop a cultural context and plausible options, across a set of predefined topics. Evaluation of 27 language models reveals several insights: (1) the open-weight Llama-3 is competitive with GPT-4, while other open-weight models struggle, with accuracies below 50%; (2) there is a general pattern of models generally performing better for some provinces, such as Bali and West Java, and less well for others; and (3) the inclusion of location context enhances performance, especially for larger models like GPT-4, emphasizing the significance of geographical context in commonsense reasoning.
- Abstract(参考訳): コモンセンス推論は文化的・地理的要因によって大きく形づくられているが、以前の研究は主に英語に根ざした文化に焦点を当てており、アングロセントリックな偏見をもたらす可能性がある。
本稿では,インドネシアの11州で見られる多様な文化に着目し,地理的要因が言語モデル推論能力に与える影響を理解することを目的としたIndoCultureを紹介する。
テンプレート (Yin et al , 2022) やオンラインスクラップ (Fung et al , 2024) に頼っていた以前の作業とは対照的に, 地域住民に対して, 事前に定義されたトピックのセットを通じて, 文化的文脈と妥当な選択肢を手作業で開発するように求めることで, IndoCulture を作成する。
オープンウェイトなLlama-3はGPT-4と競合するが、他のオープンウェイトなモデルでは50%未満の精度で苦戦し、(2)バリや西ジャワなど一部の州ではあまり良くないモデルパターンが一般的であり、(3)位置コンテキストが加わったことでパフォーマンスが向上し、特にGPT-4のような大規模モデルでは、コモンセンス推論における地理的コンテキストの重要性が強調される。
関連論文リスト
- AmharicStoryQA: A Multicultural Story Question Answering Benchmark in Amharic [25.361090310093072]
評価は一つの言語に存在する有意義な文化的変化を見落としていると論じる。
アンハラ語話者の文化的多彩な物語に基づくベンチマークであるtextbftextitAmharicStoryQAを紹介する。
論文 参考訳(メタデータ) (2026-02-02T20:28:19Z) - Common to Whom? Regional Cultural Commonsense and LLM Bias in India [15.897268984598043]
この問題に対処する LLM の能力をテストするために設計された最初のベンチマークである Indica を紹介する。
日常生活の8つの領域にまたがる515の質問に対して、5つのインド地域から人手による回答を収集する。
わずか39.4%の質問が5つの地域全てで合意を提示している。
論文 参考訳(メタデータ) (2026-01-22T00:44:26Z) - Do You Know About My Nation? Investigating Multilingual Language Models' Cultural Literacy Through Factual Knowledge [68.6805229085352]
ほとんどの多言語質問答えベンチマークは、取得した情報の地域的多様性を規定していない。
XNationQAには、9カ国の地理、文化、歴史に関する合計49,280の質問が7つの言語で提示されている。
我々はXNationQA上で8つの標準多言語LLMをベンチマークし、2つの新しい転送指標を用いて評価した。
論文 参考訳(メタデータ) (2025-11-01T18:41:34Z) - Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures [117.95352635059153]
我々は100以上の言語を対象とした参加型コモンセンス推論ベンチマークであるGlobal PIQAを提案する。
グローバルPIQAの116の言語変種は、5つの大陸、14の言語族、23の文字体系をカバーしている。
グローバルPIQAの非並列分割では、50%以上の例が地元の食品、習慣、伝統、その他の文化的特有な要素を参照している。
論文 参考訳(メタデータ) (2025-10-28T05:46:25Z) - Cross-Cultural Transfer of Commonsense Reasoning in LLMs: Evidence from the Arab World [68.19795061447044]
本稿では,アラブ世界におけるコモンセンス推論の異文化間移動について検討する。
アラブ13カ国を対象とした文化基盤のコモンセンス推論データセットを用いて,軽量アライメント手法の評価を行った。
以上の結果から,他国の文化特有例は12例に過ぎず,他国の文化特有例を平均10%向上させることができた。
論文 参考訳(メタデータ) (2025-09-23T17:24:14Z) - MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - SaudiCulture: A Benchmark for Evaluating Large Language Models Cultural Competence within Saudi Arabia [0.1499944454332829]
この研究は、多様な方言と豊かな文化的伝統を特徴とするサウジアラビアに焦点を当てている。
大規模言語モデル(LLM)の文化的能力を評価するための新しいベンチマークであるSaudiCultureを紹介する。
このデータセットは、食べ物、衣服、エンターテイメント、祝祭、工芸品など、幅広い文化的領域を含んでいる。
論文 参考訳(メタデータ) (2025-03-21T18:55:10Z) - GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking [29.664707739055068]
GIMMICKは144か国にまたがる幅広い文化的知識を評価するために設計された広範囲なベンチマークである。
GIMMICKは、728のユニークな文化イベントやファセットにまたがる3つの新しいデータセット上に構築された6つのタスクで構成されている。
本研究では,(1)地域文化バイアス,(2)モデルサイズの影響,(3)入力モダリティ,(4)外部手がかりについて検討する。
論文 参考訳(メタデータ) (2025-02-19T14:27:40Z) - Commonsense Reasoning in Arab Culture [6.116784716369165]
我々は,現代標準アラビア語(MSA)における常識推論データセットであるデータセットネームを導入し,メキシコ湾,レバント,北アフリカ,ナイルバレーの13カ国の文化をカバーした。
データセットは、ネイティブスピーカーがそれぞれの国で文化的に関連のある質問を書き、検証することで、ゼロから構築された。
データセット名は12の日常生活ドメインと54のきめ細かいサブトピックにまたがっており、社会規範、伝統、日々の経験の様々な側面を反映している。
論文 参考訳(メタデータ) (2025-02-18T11:49:54Z) - CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - Measuring Geographic Performance Disparities of Offensive Language
Classifiers [12.545108947857802]
「言語、方言、話題の内容は地域によって異なるのか?」「地域によって異なる場合、モデルのパフォーマンスに影響を及ぼすのか?」
同様に、攻撃的な言語モデルがアフリカ系アメリカ人の英語に偽陽性をもたらすのに対し、モデル性能は各都市の少数人口比と相関しないことを示す。
論文 参考訳(メタデータ) (2022-09-15T15:08:18Z) - Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning [49.04866469947569]
地理的・地理的・地理的な共通点を理解する視覚・言語モデルの能力をテストするために,Geo-Diverse Visual Commonsense Reasoning dataset(GD-VCR)を構築した。
その結果,東アジア,南アジア,アフリカを含む非西欧地域での両モデルの性能は,西欧地域に比べて著しく低いことがわかった。
論文 参考訳(メタデータ) (2021-09-14T17:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。