論文の概要: Language Models Entangle Language and Culture
- arxiv url: http://arxiv.org/abs/2601.15337v1
- Date: Tue, 20 Jan 2026 10:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.359914
- Title: Language Models Entangle Language and Culture
- Title(参考訳): 言語モデルと言語と文化
- Authors: Shourya Jain, Paras Chopra,
- Abstract要約: WildChatデータセットの分析に基づいて、現実世界のオープンエンドの質問セットを作成します。
私たちは、応答が言語によって異なるか、具体的には、応答の品質がモデルに問い合わせる言語に依存するかを評価するためにそれを使用します。
言語は、モデルが使用する文化的な文脈に大きな影響を与えます。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users should not be systemically disadvantaged by the language they use for interacting with LLMs; i.e. users across languages should get responses of similar quality irrespective of language used. In this work, we create a set of real-world open-ended questions based on our analysis of the WildChat dataset and use it to evaluate whether responses vary by language, specifically, whether answer quality depends on the language used to query the model. We also investigate how language and culture are entangled in LLMs such that choice of language changes the cultural information and context used in the response by using LLM-as-a-Judge to identify the cultural context present in responses. To further investigate this, we evaluate LLMs on a translated subset of the CulturalBench benchmark across multiple languages. Our evaluations reveal that LLMs consistently provide lower quality answers to open-ended questions in low resource languages. We find that language significantly impacts the cultural context used by the model. This difference in context impacts the quality of the downstream answer.
- Abstract(参考訳): ユーザーは、LLMと対話するために使用する言語に体系的に不利になるべきではない。
本研究では、WildChatデータセットの分析に基づいて、実世界のオープンエンド質問のセットを作成し、それを用いて、応答が言語によって異なるかどうか、特に、応答品質がモデルをクエリするのに使用される言語に依存するかどうかを評価する。
また,LLMにおける言語と文化の絡み合いについて検討し,LLM-as-a-Judgeを用いて言語選択が応答に使用される文化的情報や文脈を変化させ,応答に存在する文化的文脈を識別する。
そこで我々は,複数の言語にまたがるCulturalBenchベンチマークの翻訳サブセット上でLLMを評価した。
評価の結果,LLMは低リソース言語におけるオープンな質問に対して,品質の低い回答を一貫して提供することがわかった。
言語は、モデルが使用する文化的な文脈に大きな影響を与えます。
この文脈の違いは、下流の回答の品質に影響を与えます。
関連論文リスト
- Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - MAKIEval: A Multilingual Automatic WiKidata-based Framework for Cultural Awareness Evaluation for LLMs [37.98920430188422]
MAKIEvalは、大規模言語モデルにおける文化的認識を評価するための自動多言語フレームワークである。
モデル出力における文化的実体を自動的に識別し、構造化された知識にリンクする。
オープンソースのシステムとプロプライエタリシステムの両方を対象とする,世界のさまざまな場所で開発された7つのLLMを評価した。
論文 参考訳(メタデータ) (2025-05-27T19:29:40Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - CaLMQA: Exploring culturally specific long-form question answering across 23 languages [58.18984409715615]
CaLMQAは、文化的に異なる23言語にわたる51.7Kの質問のデータセットである。
我々は,LLM生成長文回答の事実性,関連性,表面品質を評価する。
論文 参考訳(メタデータ) (2024-06-25T17:45:26Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese [14.463110500907492]
大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。
言語に埋め込まれた知識と文化的ニュアンスを組み込んだQAデータセットを生成できるかどうかは不明だ。
本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。
論文 参考訳(メタデータ) (2024-02-27T08:24:32Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。