論文の概要: Evaluating Cultural Knowledge Processing in Large Language Models: A Cognitive Benchmarking Framework Integrating Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2511.01649v1
- Date: Mon, 03 Nov 2025 15:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.305353
- Title: Evaluating Cultural Knowledge Processing in Large Language Models: A Cognitive Benchmarking Framework Integrating Retrieval-Augmented Generation
- Title(参考訳): 大規模言語モデルにおける文化的知識処理の評価:検索・拡張生成を統合した認知ベンチマークフレームワーク
- Authors: Hung-Shin Lee, Chen-Chi Chang, Ching-Yuan Chen, Yun-Hsiang Hsu,
- Abstract要約: 本研究では,大規模言語モデル(LLM)がどのように処理し,文化的に特異的な知識を適用するかを評価するための認知的ベンチマークフレームワークを提案する。
このフレームワークはブルームの分類とRAG(Retrieval-Augmented Generation)を統合し、6つの階層的認知領域にわたるモデルパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 3.141716989847573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a cognitive benchmarking framework to evaluate how large language models (LLMs) process and apply culturally specific knowledge. The framework integrates Bloom's Taxonomy with Retrieval-Augmented Generation (RAG) to assess model performance across six hierarchical cognitive domains: Remembering, Understanding, Applying, Analyzing, Evaluating, and Creating. Using a curated Taiwanese Hakka digital cultural archive as the primary testbed, the evaluation measures LLM-generated responses' semantic accuracy and cultural relevance.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)がどのように処理し,文化的に特異的な知識を適用するかを評価するための認知的ベンチマークフレームワークを提案する。
このフレームワークはBloomの分類学とRetrieval-Augmented Generation (RAG)を統合して、6つの階層的認知ドメイン(remembering, Understanding, Applying, Analyzing, Evaluating, Creating)にわたるモデルパフォーマンスを評価する。
台湾のデジタル文化アーカイブ「ハッカ」を第一テストベッドとして, LLM生成応答のセマンティックな精度と文化的関連性を評価する。
関連論文リスト
- Evaluating Arabic Large Language Models: A Survey of Benchmarks, Methods, and Gaps [3.689494816536669]
この調査は、NLPタスク、知識領域、文化的理解、特殊能力にわたる40以上の評価ベンチマークを分析し、アラビア語のLLMベンチマークを初めて体系的にレビューした。
本稿では,ナレッジ,NLPタスク,カルチャー・アンド・ダイアレクト,ターゲット・スペクティフィック評価の4つのカテゴリに分類基準を編成する手法を提案する。
分析の結果,時間的評価の限界,マルチターン・ダイアログの不十分,データセットの文化的な相違など,重要なギャップを識別しながら,ベンチマークの多様性が著しく向上していることが判明した。
論文 参考訳(メタデータ) (2025-10-15T11:25:33Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Evaluating and Improving Cultural Awareness of Reward Models for LLM Alignment [38.24188183584244]
リワードモデル(RM)は、大きな言語モデルと多様な文化の整合に不可欠である。
既存のRM評価は、文化的に関連するデータセットが不足しているため、文化的意識を評価するには不十分である。
文化意識リワードモデリングベンチマーク (CARB) を提案する。
論文 参考訳(メタデータ) (2025-09-26T02:56:06Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - Benchmarking Cognitive Domains for LLMs: Insights from Taiwanese Hakka Culture [4.467334566487944]
本研究では,文化的知識の理解と処理において,大規模言語モデル(LLM)の性能を評価するためのベンチマークを提案する。
この研究は、記憶、理解、応用、分析、評価、創造という6つの認知領域にわたるLLMを体系的に評価する多次元フレームワークを開発する。
その結果,すべての認知領域,特に文化知識の正確な検索と応用を必要とするタスクにおいて,RAGの有効性が強調された。
論文 参考訳(メタデータ) (2024-09-03T02:50:04Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。