論文の概要: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino
- arxiv url: http://arxiv.org/abs/2409.15380v1
- Date: Fri, 20 Sep 2024 15:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:20:55.016290
- Title: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino
- Title(参考訳): Kalahi: フィリピンのための手作りの草の根文化LLM評価スイート
- Authors: Jann Railey Montalan, Jian Gang Ngui, Wei Qi Leong, Yosephine Susanto, Hamsawardhini Rengarajan, William Chandra Tjhi, Alham Fikri Aji,
- Abstract要約: フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。
カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
- 参考スコア(独自算出の注目度): 8.305146753192858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual large language models (LLMs) today may not necessarily provide culturally appropriate and relevant responses to its Filipino users. We introduce Kalahi, a cultural LLM evaluation suite collaboratively created by native Filipino speakers. It is composed of 150 high-quality, handcrafted and nuanced prompts that test LLMs for generations that are relevant to shared Filipino cultural knowledge and values. Strong LLM performance in Kalahi indicates a model's ability to generate responses similar to what an average Filipino would say or do in a given situation. We conducted experiments on LLMs with multilingual and Filipino language support. Results show that Kalahi, while trivial for Filipinos, is challenging for LLMs, with the best model answering only 46.0% of the questions correctly compared to native Filipino performance of 89.10%. Thus, Kalahi can be used to accurately and reliably evaluate Filipino cultural representation in LLMs.
- Abstract(参考訳): 現在、多言語大言語モデル(LLM)は、必ずしもフィリピンのユーザーに文化的に適切で関連する応答を提供するとは限らない。
フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。
フィリピンの文化的知識と価値観の共有に関連する世代に対してLLMをテストする150の高品質で手作りでニュアンスなプロンプトで構成されている。
カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
フィリピン語と多言語を併用したLLM実験を行った。
その結果、カライヒはフィリピン人には自明だが、LLMには挑戦的であり、フィリピンのネイティブパフォーマンス89.10%に比べて、解答率は46.0%に過ぎなかった。
したがって、カラヒはLLMにおけるフィリピンの文化的表現を正確かつ確実に評価することができる。
関連論文リスト
- Multilingual Trolley Problems for Language Models [138.0995992619116]
この研究は、「道徳機械実験」という人間の道徳的嗜好に関する大規模横断的な研究から着想を得たものである。
大規模な言語モデル(LLM)は、英語、韓国語、ハンガリー語、中国語などの言語では人間の好みと一致しているが、ヒンディー語やソマリ語(アフリカ)のような言語では一致していないことを示す。
また, LLMが道徳的選択に与える説明を特徴付けるとともに, GPT-3によるGPT-4の決定と実用主義の裏側において, 公平性が最も有力であることを示す。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。
BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。
提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文 参考訳(メタデータ) (2024-06-14T11:48:54Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [21.87066736535593]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt
Politeness on LLM Performance [17.920429805970866]
本研究は,英語,中国語,日本語タスクの多言語モデル(LLM)に対するプロンプトの丁寧さの影響を評価する。
不規則なプロンプトがしばしばパフォーマンスを低下させるが、過度に丁寧な言語はより良い結果を保証しない。
論文 参考訳(メタデータ) (2024-02-22T13:24:10Z) - Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings [73.48336898620518]
大規模言語モデル (LLM) は質問への回答や推論に非常に適している。
本研究は,多言語多言語LLMの会話文脈における証明や言説の推論能力について考察する。
論文 参考訳(メタデータ) (2023-09-15T17:45:28Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。