論文の概要: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino
- arxiv url: http://arxiv.org/abs/2409.15380v3
- Date: Wed, 18 Dec 2024 14:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:07.004524
- Title: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino
- Title(参考訳): Kalahi: フィリピンのための手作りの草の根文化LLM評価スイート
- Authors: Jann Railey Montalan, Jian Gang Ngui, Wei Qi Leong, Yosephine Susanto, Hamsawardhini Rengarajan, Alham Fikri Aji, William Chandra Tjhi,
- Abstract要約: フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。
カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
- 参考スコア(独自算出の注目度): 8.305146753192858
- License:
- Abstract: Multilingual large language models (LLMs) today may not necessarily provide culturally appropriate and relevant responses to its Filipino users. We introduce Kalahi, a cultural LLM evaluation suite collaboratively created by native Filipino speakers. It is composed of 150 high-quality, handcrafted and nuanced prompts that test LLMs for generations that are relevant to shared Filipino cultural knowledge and values. Strong LLM performance in Kalahi indicates a model's ability to generate responses similar to what an average Filipino would say or do in a given situation. We conducted experiments on LLMs with multilingual and Filipino language support. Results show that Kalahi, while trivial for Filipinos, is challenging for LLMs, with the best model answering only 46.0% of the questions correctly compared to native Filipino performance of 89.10%. Thus, Kalahi can be used to accurately and reliably evaluate Filipino cultural representation in LLMs.
- Abstract(参考訳): 現在、多言語大言語モデル(LLM)は、必ずしもフィリピンのユーザーに文化的に適切で関連する応答を提供するとは限らない。
フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。
フィリピンの文化的知識と価値観の共有に関連する世代に対してLLMをテストする150の高品質で手作りでニュアンスなプロンプトで構成されている。
カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
フィリピン語と多言語を併用したLLM実験を行った。
その結果、カライヒはフィリピン人には自明だが、LLMには挑戦的であり、フィリピンのネイティブパフォーマンス89.10%に比べて、解答率は46.0%に過ぎなかった。
したがって、カラヒはLLMにおけるフィリピンの文化的表現を正確かつ確実に評価することができる。
関連論文リスト
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English [1.3359598694842185]
マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。
LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。
このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
論文 参考訳(メタデータ) (2024-09-14T02:21:17Z) - Cultural Value Differences of LLMs: Prompt, Language, and Model Size [35.176429953825924]
本研究の目的は,大規模言語モデル(LLM)による文化的価値の行動パターンの同定である。
研究された変種には、質問の順序付け、プロンプト言語、モデルサイズが含まれる。
実験の結果,LLMのクエリ言語とモデルサイズが文化的価値の相違をもたらす主な要因であることが判明した。
論文 参考訳(メタデータ) (2024-06-17T12:35:33Z) - BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。
BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。
提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-14T11:48:54Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance [16.7036374022386]
本研究は,英語,中国語,日本語タスクの多言語モデル(LLM)に対するプロンプトの丁寧さの影響を評価する。
不規則なプロンプトがしばしばパフォーマンスを低下させるが、過度に丁寧な言語はより良い結果を保証しない。
論文 参考訳(メタデータ) (2024-02-22T13:24:10Z) - Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings [73.48336898620518]
大規模言語モデル (LLM) は質問への回答や推論に非常に適している。
本研究は,多言語多言語LLMの会話文脈における証明や言説の推論能力について考察する。
論文 参考訳(メタデータ) (2023-09-15T17:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。