論文の概要: Steering LLMs for Culturally Localized Generation
- arxiv url: http://arxiv.org/abs/2603.23301v1
- Date: Tue, 24 Mar 2026 15:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.550042
- Title: Steering LLMs for Culturally Localized Generation
- Title(参考訳): 文化的ローカライズドジェネレーションのためのステアリングLDM
- Authors: Simran Khanuja, Hongbin Liu, Shujian Zhang, John Lambert, Mingqing Chen, Rajiv Mathews, Lun Wang,
- Abstract要約: 文化的に健全な情報をエンコードし、それらを文化埋め込み(CuE)に集約する解釈可能な特徴を同定する。
CuEをベースとしたステアリングは、文化的忠実度を高め、単独で進めるよりも極めて稀で、長い尾の文化概念を引き出す。
これはまた、モデルがより良い導入戦略の恩恵を受けており、必ずしもロングテールな知識表現を欠いているわけではないことを示唆している。
- 参考スコア(独自算出の注目度): 29.19138401210989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are deployed globally, yet produce responses biased towards cultures with abundant training data. Existing cultural localization approaches such as prompting or post-training alignment are black-box, hard to control, and do not reveal whether failures reflect missing knowledge or poor elicitation. In this paper, we address these gaps using mechanistic interpretability to uncover and manipulate cultural representations in LLMs. Leveraging sparse autoencoders, we identify interpretable features that encode culturally salient information and aggregate them into Cultural Embeddings (CuE). We use CuE both to analyze implicit cultural biases under underspecified prompts and to construct white-box steering interventions. Across multiple models, we show that CuE-based steering increases cultural faithfulness and elicits significantly rarer, long-tail cultural concepts than prompting alone. Notably, CuE-based steering is complementary to black-box localization methods, offering gains when applied on top of prompt-augmented inputs. This also suggests that models do benefit from better elicitation strategies, and don't necessarily lack long-tail knowledge representation, though this varies across cultures. Our results provide both diagnostic insight into cultural representations in LLMs and a controllable method to steer towards desired cultures.
- Abstract(参考訳): LLMはグローバルにデプロイされるが、豊富なトレーニングデータを持つ文化に偏った応答を生成する。
既存の文化的なローカライゼーションアプローチでは、プロンプトやポストトレーニングのアライメントはブラックボックスであり、制御が難しい。
本稿では,LLMの文化的表現を解明し,操作するための機械的解釈可能性を用いて,これらのギャップに対処する。
スパースオートエンコーダを活用し,文化的に健全な情報をエンコードし,それらを文化埋め込み(CuE)に集約する解釈可能な特徴を同定する。
CuEは、未特定なプロンプトの下での暗黙的な文化的バイアスの分析と、ホワイトボックスのステアリング介入の構築の両方に使用します。
複数のモデルにまたがって、CuEをベースとしたステアリングは文化的忠実度を高め、単独で進めるよりも極めて稀で長い尾の文化概念を引き出すことを示す。
特に、CuEベースのステアリングはブラックボックスのローカライズ手法と相補的であり、プロンプト拡張された入力に適用されるとゲインを提供する。
これはまた、モデルがより良い導入戦略の恩恵を受けており、文化によって異なるが、必ずしもロングテールな知識表現を欠いているわけではないことを示唆している。
以上の結果から, LLMにおける文化的表現に関する診断的知見と, 望ましい文化を指向する制御可能な手法が得られた。
関連論文リスト
- LLMs as Cultural Archives: Cultural Commonsense Knowledge Graph Extraction [57.23766971626989]
大規模言語モデル(LLM)は、多様なWebスケールデータから学んだ豊富な文化的知識を符号化する。
文化常識知識グラフ(CCKG)構築のための反復的,即時的枠組みを提案する。
対象文化が英語ではない場合でも、文化知識グラフは英語でよりよく認識されている。
論文 参考訳(メタデータ) (2026-01-25T20:05:04Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models [42.367959511140036]
本稿では,大規模言語モデルの内部表現を探索する最初の解釈可能性に基づく手法であるCulturescopeを提案する。
本研究は,本質的な文化的偏見の尺度として,文化的平坦化スコアを導入する。
実験の結果,LLMは文化知識空間における西洋支配バイアスと文化的フラット化をエンコードしていることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-12T12:05:32Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - Through the Prism of Culture: Evaluating LLMs' Understanding of Indian Subcultures and Traditions [9.331687165284587]
インド社会におけるリトル・トラディションを認識し,正確に応答する大規模言語モデルの能力を評価する。
一連のケーススタディを通じて、LLMが支配的なグレートトラディションとローカライズされたリトルトラディションの相互作用のバランスをとることができるかどうかを評価する。
その結果,LLMは文化的ニュアンスを表現できる能力を示す一方で,実践的,文脈特異的なシナリオにこの理解を適用するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-28T06:58:25Z) - Self-Pluralising Culture Alignment for Large Language Models [36.689491885394034]
本稿では,大規模言語モデルと多言語文化との整合性を実現するフレームワークであるCultureSPAを提案する。
カルチャー・アウェア/アウェアアウトプットを比較することで、カルチャー関連インスタンスを検出し、収集することができる。
広範囲な実験により、CultureSPAは、一般の能力を損なうことなく、多様な文化へのLCMのアライメントを著しく改善することが示された。
論文 参考訳(メタデータ) (2024-10-16T19:06:08Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。