論文の概要: Disentangling Language and Culture for Evaluating Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24635v1
- Date: Fri, 30 May 2025 14:25:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.997572
- Title: Disentangling Language and Culture for Evaluating Multilingual Large Language Models
- Title(参考訳): 多言語大言語モデル評価のための言語と文化の両立
- Authors: Jiahao Ying, Wei Tang, Yiran Zhao, Yixin Cao, Yu Rong, Wenxuan Zhang,
- Abstract要約: 本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
- 参考スコア(独自算出の注目度): 48.06219053598005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a Dual Evaluation Framework to comprehensively assess the multilingual capabilities of LLMs. By decomposing the evaluation along the dimensions of linguistic medium and cultural context, this framework enables a nuanced analysis of LLMs' ability to process questions within both native and cross-cultural contexts cross-lingually. Extensive evaluations are conducted on a wide range of models, revealing a notable "CulturalLinguistic Synergy" phenomenon, where models exhibit better performance when questions are culturally aligned with the language. This phenomenon is further explored through interpretability probing, which shows that a higher proportion of specific neurons are activated in a language's cultural context. This activation proportion could serve as a potential indicator for evaluating multilingual performance during model training. Our findings challenge the prevailing notion that LLMs, primarily trained on English data, perform uniformly across languages and highlight the necessity of culturally and linguistically model evaluations. Our code can be found at https://yingjiahao14. github.io/Dual-Evaluation/.
- Abstract(参考訳): 本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
この枠組みは言語媒体と文化的文脈の次元に沿って評価を分解することにより、言語的文脈と文化的文脈の両方において質問を処理するLLMの能力の微妙な分析を可能にする。
広範囲なモデルで広範囲な評価が行われ、言語と文化的に整合している場合に、より優れたパフォーマンスを示す「文化言語シナジー」現象が明らかとなった。
この現象は、言語文化の文脈で特定のニューロンのより高い割合が活性化されることを示す解釈可能性探索によってさらに解明される。
このアクティベーション比は、モデルトレーニング中に多言語のパフォーマンスを評価する潜在的指標となる可能性がある。
LLMは、主に英語データに基づいて訓練され、言語全体にわたって均一に動作し、文化的、言語学的モデル評価の必要性を強調している、という一般的な概念に挑戦する。
私たちのコードはhttps://yingjiahao14.orgで参照できます。
github.io/Dual-Evaluation/。
関連論文リスト
- MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [26.806566827956875]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Understanding LLMs' Cross-Lingual Context Retrieval: How Good It Is And Where It Comes From [61.63091726904068]
12言語にわたる40以上の大言語モデル(LLM)の言語間コンテキスト検索能力を評価する。
いくつかの小さな訓練後のオープンLLMは、強い言語間コンテキスト検索能力を示している。
また, 大規模プレトレーニングでは, xMRCの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-15T06:35:27Z) - Multi-ToM: Evaluating Multilingual Theory of Mind Capabilities in Large Language Models [3.9532244541907793]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対して精神状態を推論し、評価する認知能力のこと。
大規模言語モデル(LLM)が多種多様な言語や文化的文脈でToMをどの程度示すかは、いまだに不明である。
本稿では,このギャップに対処することを目的とした多言語ToM機能に関する総合的研究を紹介する。
論文 参考訳(メタデータ) (2024-11-24T22:37:59Z) - Large Language Models as Neurolinguistic Subjects: Discrepancy in Performance and Competence for Form and Meaning [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。
ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。
その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文 参考訳(メタデータ) (2024-11-12T04:16:44Z) - Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language Models [22.859955360764275]
本稿では,MultiLingual Needle-in-a-Haystack(MLNeedle)テストを導入する。
我々はMLNeedleの4つの最先端の大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2024-08-19T17:02:06Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。