Fugu-MT 論文翻訳(概要): Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino

論文の概要: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino

arxiv url: http://arxiv.org/abs/2409.15380v1
Date: Fri, 20 Sep 2024 15:01:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 13:20:55.016290
Title: Kalahi: A handcrafted, grassroots cultural LLM evaluation suite for Filipino
Title（参考訳）: Kalahi: フィリピンのための手作りの草の根文化LLM評価スイート
Authors: Jann Railey Montalan, Jian Gang Ngui, Wei Qi Leong, Yosephine Susanto, Hamsawardhini Rengarajan, William Chandra Tjhi, Alham Fikri Aji,
Abstract要約: フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。
参考スコア（独自算出の注目度）: 8.305146753192858
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multilingual large language models (LLMs) today may not necessarily provide culturally appropriate and relevant responses to its Filipino users. We introduce Kalahi, a cultural LLM evaluation suite collaboratively created by native Filipino speakers. It is composed of 150 high-quality, handcrafted and nuanced prompts that test LLMs for generations that are relevant to shared Filipino cultural knowledge and values. Strong LLM performance in Kalahi indicates a model's ability to generate responses similar to what an average Filipino would say or do in a given situation. We conducted experiments on LLMs with multilingual and Filipino language support. Results show that Kalahi, while trivial for Filipinos, is challenging for LLMs, with the best model answering only 46.0% of the questions correctly compared to native Filipino performance of 89.10%. Thus, Kalahi can be used to accurately and reliably evaluate Filipino cultural representation in LLMs.
Abstract（参考訳）: 現在、多言語大言語モデル(LLM)は、必ずしもフィリピンのユーザーに文化的に適切で関連する応答を提供するとは限らない。フィリピン生まれの話者が共同で作成した,文化的LLM評価スイートであるKalahiを紹介する。フィリピンの文化的知識と価値観の共有に関連する世代に対してLLMをテストする150の高品質で手作りでニュアンスなプロンプトで構成されている。カラヒにおける強力なLLMパフォーマンスは、ある状況下で平均的なフィリピン人が言うのと同じような反応をモデルが生成する能力を示している。フィリピン語と多言語を併用したLLM実験を行った。その結果、カライヒはフィリピン人には自明だが、LLMには挑戦的であり、フィリピンのネイティブパフォーマンス89.10%に比べて、解答率は46.0%に過ぎなかった。したがって、カラヒはLLMにおけるフィリピンの文化的表現を正確かつ確実に評価することができる。

関連論文リスト

LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文参考訳（メタデータ） (2026-01-25T20:05:04Z)
Camellia: Benchmarking Cultural Biases in LLMs for Asian Languages [46.3747338016989]
カメリア(Camellia)は、6つの異なるアジア文化にまたがる9つのアジア言語において、エンティティ中心の文化的バイアスを測定するためのベンチマークである。文化的文脈適応,感情関連,実体抽出QAなど,多言語多言語大言語モデルにおける文化的バイアスの評価を行った。分析の結果,すべてのアジア諸言語におけるLLMの文化的適応に苦慮する傾向がみられた。
論文参考訳（メタデータ） (2025-10-06T18:59:11Z)
FilBench: Can LLMs Understand and Generate Filipino? [2.029906424353094]
FilBenchはフィリピン中心のベンチマークであり、フィリピン、タガログ、セブアーノにおける様々なタスクと能力のセットでLCMを評価するように設計されている。 FilBench 上で27の最先端 LLM を評価することで,複数の LLM が読解能力や翻訳能力に悩まされていることがわかった。我々の研究は、フィリピンのNLPの進歩を促進するために、言語固有のベンチマークをキュレートすることの価値を実証している。
論文参考訳（メタデータ） (2025-08-05T14:48:32Z)
MultiNRC: A Challenging and Native Multilingual Reasoning Evaluation Benchmark for LLMs [56.87573414161703]
大規模言語モデル(LLM)を評価するベンチマークであるMultiNRC(MultiNRC)を導入する。 MultiNRCは4つの中核的推論カテゴリをカバーしている: 言語固有の言語推論、単語プレイとライドル、文化的/トラディション推論、文化的関連性のある数学推論である。文化的・貿易的推論や文化的関連性を考慮した数学的推論については、英語に習熟した母語話者のマニュアル翻訳による多言語質問の英訳も提供する。
論文参考訳（メタデータ） (2025-07-23T12:56:31Z)
Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales [2.9465623430708905]
本研究は、民間人の知識、特に妖怪の知識を評価することに焦点を当てる。妖怪(ようかい)は、現代でも芸術や娯楽のモチーフとして人気を博している日本の民俗に由来する超自然的な生き物である。妖怪に関する知識を探索するために設計された809の多重選択質問からなるベンチマークデータセットである妖怪Evalを紹介する。
論文参考訳（メタデータ） (2025-06-04T06:58:19Z)
Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文参考訳（メタデータ） (2025-05-30T14:25:45Z)
NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities [12.891810941315503]
本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。我々はエジプト語とモロッコ語の方言をテストベッドとして使用し、言語的・文化的豊かさから選択した方法論を実証した。我々はエジプトとモロッコのコミュニティに適応した3BパラメータであるNileChatを開発し、それらの言語、文化遺産、価値観を取り入れた。
論文参考訳（メタデータ） (2025-05-23T21:18:40Z)
Batayan: A Filipino NLP benchmark for evaluating Large Language Models [0.0]
Batayanは3つの主要な自然言語処理能力(NLP)にまたがる大規模言語モデル(LLM)を評価するために設計された総合的なベンチマークである。我々の厳密でネイティブな話者主導のアノテーションプロセスは、フィリピンの複雑な形態的・統語的構造への流布と信頼を保証する。
論文参考訳（メタデータ） (2025-02-19T07:03:15Z)
CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文参考訳（メタデータ） (2024-10-03T17:04:31Z)
Evaluating Cultural Awareness of LLMs for Yoruba, Malayalam, and English [1.3359598694842185]
マラヤラム(インド・ケララ州)とヨルバ(西アフリカ)の2つの地域言語の文化的側面を理解するための様々なLLMの能力について検討する。 LLMは英語に高い文化的類似性を示すが、マラヤラムとヨルバの6つの指標にまたがる文化的ニュアンスを捉えられなかった。このことは、チャットベースのLLMのユーザエクスペリエンスの向上や、大規模LLMエージェントベースの市場調査の妥当性向上に大きく影響する。
論文参考訳（メタデータ） (2024-09-14T02:21:17Z)
Cultural Value Differences of LLMs: Prompt, Language, and Model Size [35.176429953825924]
本研究の目的は,大規模言語モデル(LLM)による文化的価値の行動パターンの同定である。研究された変種には、質問の順序付け、プロンプト言語、モデルサイズが含まれる。実験の結果,LLMのクエリ言語とモデルサイズが文化的価値の相違をもたらす主な要因であることが判明した。
論文参考訳（メタデータ） (2024-06-17T12:35:33Z)
BLEnD: A Benchmark for LLMs on Everyday Knowledge in Diverse Cultures and Languages [39.17279399722437]
大型言語モデル(LLM)は、特に多種多様な地域や非英語言語において、日常生活に関する文化特有の知識を欠いていることが多い。 BLEnDはLLMの日常的な知識を様々な文化や言語で評価するために設計された手作りのベンチマークである。提案手法は,短問合せと複数問合せの2つの形式を含むベンチマークを構築した。
論文参考訳（メタデータ） (2024-06-14T11:48:54Z)
Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文参考訳（メタデータ） (2024-05-07T20:28:34Z)
Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文参考訳（メタデータ） (2024-04-10T08:49:27Z)
CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。 CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文参考訳（メタデータ） (2024-04-10T00:25:09Z)
Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文参考訳（メタデータ） (2024-03-15T12:47:39Z)
Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance [16.7036374022386]
本研究は,英語,中国語,日本語タスクの多言語モデル(LLM)に対するプロンプトの丁寧さの影響を評価する。不規則なプロンプトがしばしばパフォーマンスを低下させるが、過度に丁寧な言語はより良い結果を保証しない。
論文参考訳（メタデータ） (2024-02-22T13:24:10Z)
Are Multilingual LLMs Culturally-Diverse Reasoners? An Investigation into Multicultural Proverbs and Sayings [73.48336898620518]
大規模言語モデル (LLM) は質問への回答や推論に非常に適している。本研究は,多言語多言語LLMの会話文脈における証明や言説の推論能力について考察する。
論文参考訳（メタデータ） (2023-09-15T17:45:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。