論文の概要: Beyond Training for Cultural Awareness: The Role of Dataset Linguistic Structure in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01161v1
- Date: Sun, 01 Feb 2026 11:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.635299
- Title: Beyond Training for Cultural Awareness: The Role of Dataset Linguistic Structure in Large Language Models
- Title(参考訳): 文化意識のトレーニングを超えて:大規模言語モデルにおけるデータセット言語構造の役割
- Authors: Reem I. Masoud, Chen Feng, Shunta Asano, Saied Alshahrani, Philip Colin Treleaven, Miguel R. D. Rodrigues,
- Abstract要約: 文化適応のための微調整データセットの言語特性について検討する。
アラビア語、中国語、日本語のデータセットに対する軽量な言語、意味、構造的メトリクスを計算します。
語彙指向コンポーネント(PC3)が最も堅牢であり、モデルとベンチマーク間でより一貫したパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 11.682773682018977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The global deployment of large language models (LLMs) has raised concerns about cultural misalignment, yet the linguistic properties of fine-tuning datasets used for cultural adaptation remain poorly understood. We adopt a dataset-centric view of cultural alignment and ask which linguistic properties of fine-tuning data are associated with cultural performance, whether these properties are predictive prior to training, and how these effects vary across models. We compute lightweight linguistic, semantic, and structural metrics for Arabic, Chinese, and Japanese datasets and apply principal component analysis separately within each language. This design ensures that the resulting components capture variation among datasets written in the same language rather than differences between languages. The resulting components correspond to broadly interpretable axes related to semantic coherence, surface-level lexical and syntactic diversity, and lexical or structural richness, though their composition varies across languages. We fine-tune three major LLM families (LLaMA, Mistral, DeepSeek) and evaluate them on benchmarks of cultural knowledge, values, and norms. While PCA components correlate with downstream performance, these associations are strongly model-dependent. Through controlled subset interventions, we show that lexical-oriented components (PC3) are the most robust, yielding more consistent performance across models and benchmarks, whereas emphasizing semantic or diversity extremes (PC1-PC2) is often neutral or harmful.
- Abstract(参考訳): 大規模言語モデル(LLM)のグローバル展開は、文化的不整合に関する懸念を提起しているが、文化適応に使用される微調整データセットの言語的特性はいまだに理解されていない。
我々は、データセット中心の文化的アライメントの視点を採用し、微調整データの言語特性が文化的パフォーマンスと関連しているか、これらの特性がトレーニング前に予測可能であるか、モデルによってどのように異なるのかを問う。
我々は、アラビア語、中国語、日本語のデータセットに対する軽量な言語的、意味的、構造的メトリクスを計算し、各言語ごとに主成分分析を適用する。
この設計により、結果として得られるコンポーネントは、言語間の違いではなく、同じ言語で書かれたデータセット間の変動をキャプチャする。
結果として得られる成分は、意味的コヒーレンス、表面レベルの語彙的および構文的多様性、語彙的または構造的富度に関連する広い解釈可能な軸に対応するが、それらの構成は言語によって異なる。
3つのLLMファミリー(LLaMA、Mistral、DeepSeek)を微調整し、文化的知識、価値観、規範のベンチマークで評価する。
PCAコンポーネントは下流のパフォーマンスと相関するが、これらの関連はモデルに依存している。
制御されたサブセットの介入により、語彙指向コンポーネント(PC3)が最も堅牢であり、モデルやベンチマーク間でより一貫性のある性能が得られるのに対し、意味的または多様性的極端(PC1-PC2)は中立的または有害であることが示された。
関連論文リスト
- A Parallel Cross-Lingual Benchmark for Multimodal Idiomaticity Understanding [15.171586338601522]
潜在的に慣用的な表現(PIE)は、言語コミュニティの日常的な経験と本質的に結びついている意味を解釈する。
XMPIEは,潜在的慣用的表現の並列多言語・マルチモーダルデータセットである。
論文 参考訳(メタデータ) (2026-01-13T15:20:28Z) - I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models [26.91963265869296]
本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。
元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。
包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
論文 参考訳(メタデータ) (2025-06-29T07:12:11Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。
資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。
多言語 LLM は非一貫性な言語間アライメントを示す。
論文 参考訳(メタデータ) (2025-03-14T10:39:27Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Beyond Data Quantity: Key Factors Driving Performance in Multilingual Language Models [1.5703073293718952]
モデル性能を向上させるために、事前訓練データとモデルサイズとともに、重要な要因としてのトーケン類似性と国間類似性を考察した。
これらの洞察は、より公平で効果的な多言語言語モデルを開発するための貴重なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-17T03:05:26Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - Understanding the effects of language-specific class imbalance in
multilingual fine-tuning [0.0]
変換器をベースとしたLarge Language Model (LLM) を不均衡なデータセットで微調整すると性能が低下することを示す。
各言語ごとにクラス重みを別々に計算することで、従来のクラス重み付けアプローチを不均衡に修正する。
論文 参考訳(メタデータ) (2024-02-20T13:59:12Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。