論文の概要: Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales
- arxiv url: http://arxiv.org/abs/2506.03619v1
- Date: Wed, 04 Jun 2025 06:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.18991
- Title: Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales
- Title(参考訳): 大言語モデルは民俗を知っていますか?-日本人民俗の妖怪を事例として
- Authors: Ayuto Tsutsumi, Yuu Jinnai,
- Abstract要約: 本研究は、民間人の知識、特に妖怪の知識を評価することに焦点を当てる。
妖怪(ようかい)は、現代でも芸術や娯楽のモチーフとして人気を博している日本の民俗に由来する超自然的な生き物である。
妖怪に関する知識を探索するために設計された809の多重選択質問からなるベンチマークデータセットである妖怪Evalを紹介する。
- 参考スコア(独自算出の注目度): 2.9465623430708905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Large Language Models (LLMs) have demonstrated strong language understanding and generation abilities across various languages, their cultural knowledge is often limited to English-speaking communities, which can marginalize the cultures of non-English communities. To address the problem, evaluation of the cultural awareness of the LLMs and the methods to develop culturally aware LLMs have been investigated. In this study, we focus on evaluating knowledge of folktales, a key medium for conveying and circulating culture. In particular, we focus on Japanese folktales, specifically on knowledge of Yokai. Yokai are supernatural creatures originating from Japanese folktales that continue to be popular motifs in art and entertainment today. Yokai have long served as a medium for cultural expression, making them an ideal subject for assessing the cultural awareness of LLMs. We introduce YokaiEval, a benchmark dataset consisting of 809 multiple-choice questions (each with four options) designed to probe knowledge about yokai. We evaluate the performance of 31 Japanese and multilingual LLMs on this dataset. The results show that models trained with Japanese language resources achieve higher accuracy than English-centric models, with those that underwent continued pretraining in Japanese, particularly those based on Llama-3, performing especially well. The code and dataset are available at https://github.com/CyberAgentA ILab/YokaiEval.
- Abstract(参考訳): 大きな言語モデル (LLM) は言語理解と様々な言語における生成能力を示しているが、その文化的知識は英語コミュニティに限られており、非英語コミュニティの文化を疎外することができる。
この問題に対処するため, LLMの文化的意識評価と, LLMを文化的に認識する手法の開発について検討した。
本研究では,文化を伝達・循環する重要な媒体である民俗学の知識を評価することに焦点を当てた。
特に日本の民俗学、特に妖怪の知識に焦点を当てる。
妖怪(ようかい)は、現代でも芸術や娯楽のモチーフとして人気を博している日本の民俗に由来する超自然的な生き物である。
妖怪は長年、文化表現の媒体として機能し、LSMの文化的意識を評価するのに理想的な主題となっている。
妖怪に関する知識を探索するために設計された,809質問(それぞれ4つの選択肢がある)からなるベンチマークデータセットである妖怪Evalを紹介する。
本データセットを用いて,31の日本語および多言語LLMの性能評価を行った。
その結果,日本語教材を用いて訓練したモデルは英語中心モデルよりも精度が高く,日本語,特にLlama-3に基づく事前学習が継続されている。
コードとデータセットはhttps://github.com/CyberAgentA ILab/YokaiEval.comで公開されている。
関連論文リスト
- MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - NileChat: Towards Linguistically Diverse and Culturally Aware LLMs for Local Communities [12.891810941315503]
本研究は,特定のコミュニティに適した,合成および検索に基づく事前学習データを作成する手法を提案する。
我々はエジプト語とモロッコ語の方言をテストベッドとして使用し、言語的・文化的豊かさから選択した方法論を実証した。
我々はエジプトとモロッコのコミュニティに適応した3BパラメータであるNileChatを開発し、それらの言語、文化遺産、価値観を取り入れた。
論文 参考訳(メタデータ) (2025-05-23T21:18:40Z) - CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness [28.676469530858924]
我々は,3,490の文化的特異な質問と31.7kの回答を母国語で行う多言語リソースであるtextbfCAREを紹介した。
質の高いネイティブな嗜好の質が、様々なLMの文化意識をいかに向上させるかを示す。
分析の結果,初期の文化的パフォーマンスが向上したモデルの方がアライメントの恩恵を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - JMMMU: A Japanese Massive Multi-discipline Multimodal Understanding Benchmark for Culture-aware Evaluation [63.83457341009046]
JMMMU(JMMMU、日本語MMMU)は、日本の文化状況に基づいて、専門家レベルのタスクでLMMを評価するために設計された、日本初の大規模ベンチマークである。
CAサブセットを用いて、日本語で評価すると、多くのLMMのパフォーマンス低下が観察される。
両サブセットを組み合わせることで,一部のLMMはCAサブセットでは良好に機能するが,CSサブセットでは機能しないことが明らかとなり,文化的理解の深みに欠ける日本語の理解が浅かった。
論文 参考訳(メタデータ) (2024-10-22T17:59:56Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。