論文の概要: Language over Content: Tracing Cultural Understanding in Multilingual Large Language Models
- arxiv url: http://arxiv.org/abs/2510.16565v1
- Date: Sat, 18 Oct 2025 16:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.041169
- Title: Language over Content: Tracing Cultural Understanding in Multilingual Large Language Models
- Title(参考訳): コンテンツを超えた言語:多言語大言語モデルにおける文化的理解の追跡
- Authors: Seungho Cho, Changgeon Ko, Eui Jun Hwang, Junmyeong Lee, Huije Lee, Jong C. Park,
- Abstract要約: 内部パスは、異国語、異国語、異国語、異国語、異国語で重複する。
その結果,同言語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,異国語,
- 参考スコア(独自算出の注目度): 10.798925500517823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used across diverse cultural contexts, making accurate cultural understanding essential. Prior evaluations have mostly focused on output-level performance, obscuring the factors that drive differences in responses, while studies using circuit analysis have covered few languages and rarely focused on culture. In this work, we trace LLMs' internal cultural understanding mechanisms by measuring activation path overlaps when answering semantically equivalent questions under two conditions: varying the target country while fixing the question language, and varying the question language while fixing the country. We also use same-language country pairs to disentangle language from cultural aspects. Results show that internal paths overlap more for same-language, cross-country questions than for cross-language, same-country questions, indicating strong language-specific patterns. Notably, the South Korea-North Korea pair exhibits low overlap and high variability, showing that linguistic similarity does not guarantee aligned internal representation.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々な文化的文脈にまたがって使われることが多く、正確な文化的理解が不可欠である。
以前の評価では、主に出力レベルのパフォーマンスに重点を置いており、応答の違いを駆動する要因を無視する一方で、回路分析を用いた研究では、ほとんど言語をカバーせず、ほとんど文化に焦点を合わせていない。
本研究では, LLMの内部文化的理解機構を, 意味論的に等価な質問に答える際の重なり合いを, 質問言語を固定しながら対象国を変化させ, 国を固定しながら問う言語を変化させるという2つの条件下で, アクティベーションパスを計測することで追跡する。
文化的な側面から言語を遠ざけるために、同言語国家ペアも使用しています。
その結果,同言語,異国語,異国語,異国語では内部経路が重なり,言語固有のパターンが強くなることがわかった。
特に、韓国と北朝鮮のペアは、重複度が低く、多様性が高いため、言語的な類似性は、整合した内部表現を保証していない。
関連論文リスト
- MyCulture: Exploring Malaysia's Diverse Culture under Low-Resource Language Constraints [7.822567458977689]
MyCultureは、マレーシアの文化に関する大規模言語モデル(LLM)を総合的に評価するために設計されたベンチマークである。
従来のベンチマークとは異なり、MyCultureは未定義のオプションなしで、新しいオープンエンドの複数選択質問フォーマットを採用している。
構造化された出力と自由形式出力のモデル性能を比較して構造バイアスを解析し、多言語的プロンプト変動による言語バイアスを評価する。
論文 参考訳(メタデータ) (2025-08-07T14:17:43Z) - Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。
このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。
韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文 参考訳(メタデータ) (2025-07-05T11:52:09Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。