論文の概要: Cultural Value Alignment Via Latent Activation Steering in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.26365v1
- Date: Mon, 25 May 2026 22:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.489676
- Title: Cultural Value Alignment Via Latent Activation Steering in Large Language Models
- Title(参考訳): 大規模言語モデルにおける潜在活性化ステアリングによる文化的価値アライメント
- Authors: Trung Duc Anh Dang, Sarah Masud,
- Abstract要約: 文化的評価と介入のための一般化可能な枠組みを提案する。
300のジレンマから暗黙のトークン確率を抽出することにより、表面レベルのアライメントをバイパスする。
適応性にはかなりの変化が見られ、潜伏絡みの一貫した現象が明らかになる。
- 参考スコア(独自算出の注目度): 4.181458436156503
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) often exhibit homogenized cultural perspectives. While the World Values Survey (WVS) provides a gold standard for mapping human values, traditional direct prompting of LLMs on WVS often fails to access the model's latent cultural depth, leading to safety-aligned refusals or neutral responses. Here, we propose a generalizable framework for cultural evaluation and intervention that transitions from abstract queries to scenario-based behavioral probing. By extracting implicit token probabilities across 300 situational dilemmas, we bypass surface-level alignment to map the latent coordinates of LLMs cultural value. We further introduce activation steering to shift these internal alignments during the forward pass without retraining. Across multiple LLMs, we find substantial variation in adaptability and uncover a consistent phenomenon of latent entanglement, where interventions along one cultural dimension induce shifts along another. These results suggest that cultural values are encoded as coupled structures, limiting precise alignment. This work establishes a computationally efficient framework for cultural steering, highlighting the structural complexities when navigating global value with LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、しばしば均質化された文化的視点を示す。
世界価値調査(WVS)は、人間の価値をマッピングするための金の基準を提供するが、従来のWVSでのLCMの直接的推進は、モデルの潜む文化的な深みにアクセスするのに失敗し、安全に整合した拒絶や中立的な反応をもたらす。
本稿では,抽象的なクエリからシナリオに基づく行動探索へ移行する,文化的評価と介入のための一般化可能なフレームワークを提案する。
300のジレンマから暗黙のトークン確率を抽出することにより,LLMの文化的価値の潜在座標をマッピングするために表面レベルのアライメントをバイパスする。
さらにアクティベーションステアリングを導入し、これらの内部アライメントをフォワードパス中に再トレーニングせずにシフトさせる。
複数のLSMにおいて,適応性にかなりの変化が見られ,ある文化的次元に沿った介入が別の文化的側面に沿った変化を誘発する,潜伏絡み現象が一貫した現象を明らかにする。
これらの結果は、文化的価値が結合構造として符号化され、正確なアライメントが制限されていることを示唆している。
この研究は、LLMでグローバルな価値をナビゲートする際の構造的複雑さを浮き彫りにして、計算的に効率的な文化的ステアリングの枠組みを確立する。
関連論文リスト
- Distributional Open-Ended Evaluation of LLM Cultural Value Alignment Based on Value Codebook [50.10594064510559]
DOVEは、人文テキストとLLM出力を直接比較する分散評価フレームワークである。
DOVEは, ダウンストリームタスクと31.56%の相関を達成し, 高い信頼性を保ちながら, 文化ごとのサンプル500点程度の信頼性を維持した。
論文 参考訳(メタデータ) (2026-03-16T08:33:10Z) - Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z) - Break the Checkbox: Challenging Closed-Style Evaluations of Cultural Alignment in LLMs [18.84720654437447]
大規模言語モデル(LLM)における文化的アライメントを評価するために、クローズドスタイルのマルチチョイスサーベイに依存する研究が多数ある。
本研究では、この制約された評価パラダイムに挑戦し、より現実的で制約のないアプローチを探求する。
論文 参考訳(メタデータ) (2025-02-12T01:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。