論文の概要: Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs
- arxiv url: http://arxiv.org/abs/2504.04994v2
- Date: Sun, 20 Apr 2025 13:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:42:37.390418
- Title: Following the Whispers of Values: Unraveling Neural Mechanisms Behind Value-Oriented Behaviors in LLMs
- Title(参考訳): 価値のささやきに追従する:LLMにおける価値指向行動の背後にある神経メカニズムの解明
- Authors: Ling Hu, Yuemei Xu, Xiaoyang Gu, Letao Han,
- Abstract要約: 本研究では,大規模言語モデルにおける国家社会価値の行動駆動メカニズムを探求する,ValueExplorationという新しいフレームワークを提案する。
まず,中国社会価値を大言語モデルで符号化するニューロンを同定し,同定する。
これらのニューロンを不活性化することにより、モデル行動の変化を分析し、LLM決定に影響を及ぼす内部メカニズムを明らかにする。
- 参考スコア(独自算出の注目度): 2.761261381839981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance of large language models (LLMs), they can present unintended biases and harmful behaviors driven by encoded values, emphasizing the urgent need to understand the value mechanisms behind them. However, current research primarily evaluates these values through external responses with a focus on AI safety, lacking interpretability and failing to assess social values in real-world contexts. In this paper, we propose a novel framework called ValueExploration, which aims to explore the behavior-driven mechanisms of National Social Values within LLMs at the neuron level. As a case study, we focus on Chinese Social Values and first construct C-voice, a large-scale bilingual benchmark for identifying and evaluating Chinese Social Values in LLMs. By leveraging C-voice, we then identify and locate the neurons responsible for encoding these values according to activation difference. Finally, by deactivating these neurons, we analyze shifts in model behavior, uncovering the internal mechanism by which values influence LLM decision-making. Extensive experiments on four representative LLMs validate the efficacy of our framework. The benchmark and code will be available.
- Abstract(参考訳): 大きな言語モデル(LLM)の印象的なパフォーマンスにもかかわらず、エンコードされた値によって引き起こされる意図しないバイアスと有害な振る舞いを示し、それらの背後にある価値メカニズムを理解する緊急の必要性を強調します。
しかし、現在の研究は、AIの安全性、解釈可能性の欠如、現実世界の文脈における社会的価値の評価の欠如に焦点をあてて、これらの価値を外部からの反応を通じて主に評価している。
本稿では,LLMにおける国家社会価値の行動駆動機構をニューロンレベルで探求することを目的とした,ValueExplorationという新しいフレームワークを提案する。
ケーススタディとして,中国社会価値に着目し,中国社会価値をLLMで識別・評価するための大規模バイリンガル・ベンチマークであるC-voiceを構築した。
C-voiceを利用することで、活性化差に応じてこれらの値を符号化するニューロンを特定し、特定する。
最後に、これらのニューロンを不活性化することにより、モデル行動の変化を分析し、LLM決定に影響を及ぼす内部メカニズムを明らかにする。
4つの LLM の大規模実験により,本フレームワークの有効性が検証された。
ベンチマークとコードは利用可能だ。
関連論文リスト
- Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models [13.513813405118478]
大規模言語モデル(LLM)は、その本質的な価値に関する懸念を提起している。
本研究は、生成心理学的アプローチ(GPLA)の導入によるギャップに対処する。
LLMに適した心理学的基礎を持つ5要素値システムを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:10:55Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。