論文の概要: Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
- arxiv url: http://arxiv.org/abs/2602.19101v1
- Date: Sun, 22 Feb 2026 09:11:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.481105
- Title: Value Entanglement: Conflation Between Different Kinds of Good In (Some) Large Language Models
- Title(参考訳): 価値の絡み合い: 異なる種類のグッドイン(一部)大言語モデル間の相関
- Authors: Seong Hah Cho, Junyi Li, Anna Leshinskaya,
- Abstract要約: 我々は,Large Language Models (LLMs) が道徳,文法,経済の3つの異なる特徴を区別するかどうかを検討する。
文法的評価と経済的な評価の両方が、人間の規範に対する道徳的価値に過度に影響されていることが判明した。
この融合は、モラルに関連する活性化ベクトルの選択的アブレーションによって修復された。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value alignment of Large Language Models (LLMs) requires us to empirically measure these models' actual, acquired representation of value. Among the characteristics of value representation in humans is that they distinguish among value of different kinds. We investigate whether LLMs likewise distinguish three different kinds of good: moral, grammatical, and economic. By probing model behavior, embeddings, and residual stream activations, we report pervasive cases of value entanglement: a conflation between these distinct representations of value. Specifically, both grammatical and economic valuation was found to be overly influenced by moral value, relative to human norms. This conflation was repaired by selective ablation of the activation vectors associated with morality.
- Abstract(参考訳): LLM(Large Language Models)の値アライメントには、これらのモデルの実際の取得した値表現を経験的に測定する必要がある。
人間における価値表現の特徴の1つは、異なる種類の価値を区別することである。
我々は、LLMが道徳、文法、経済の3つの異なる種類を同様に区別するかどうか検討する。
モデルの振る舞い,埋め込み,残ストリームの活性化を探索することにより,これらの異なる値表現の融合という,広範にわたる値絡みの事例を報告する。
具体的には、文法的評価と経済的な評価の両方が、人間の規範に対する道徳的価値に過度に影響されていることが判明した。
この融合は、モラルに関連する活性化ベクトルの選択的アブレーションによって修復された。
関連論文リスト
- Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs [18.492825007258656]
Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kを提示する。
シナリオベースの決定では、ほぼ完全なクロスモデル一貫性が得られます。
人間と大言語モデルは、自己申告された値と実行された値の間の弱い対応を示す。
論文 参考訳(メタデータ) (2026-01-12T20:07:30Z) - Differences in the Moral Foundations of Large Language Models [0.0]
ジョナサン・ハイト(Jonathan Haidt)の影響力のある道徳的基礎理論(MFT)を用いて、幅広いモデルの合成実験を行う。
本調査では,ヒトのベースラインに対する大きな言語モデル応答のバイアスとばらつきについて報告する。
私の結果は、モデルが互いに異なる道徳的基盤と全国的に代表される人間のベースラインに依存していることを示唆し、モデル能力が増大するにつれて、これらの違いが増加することを示唆している。
論文 参考訳(メタデータ) (2025-11-14T18:21:22Z) - Counterfactual Reasoning for Steerable Pluralistic Value Alignment of Large Language Models [43.01088871836861]
COUPLEは、Puuralistic valuEアライメントのためのCOUnterfactual reasoning frameworkである。
特徴間の複雑な相互依存と優先順位付け、高レベルの価値次元と振る舞いの因果関係が特徴である。
明確な因果モデリングから恩恵を受けるため、COUPLEはより良い解釈可能性も提供する。
論文 参考訳(メタデータ) (2025-10-21T11:12:45Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models [36.573147909548226]
人々は道徳的アドバイスのために大規模言語モデル(LLM)をますます頼りにしており、これは人間の決定に影響を及ぼすかもしれない。
モデルでは高いコンセンサスの下でのみ人間の判断を再現し,人間の不一致が増大するとアライメントは急激に悪化することがわかった。
このギャップを埋めるために、DMP(Dynamic Moral Profiling)というディリクレに基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2025-07-23T05:26:17Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
我々は,LLMにおける記号的人間の値分布の高次元神経表現であるUniVaRを提案する。
これは連続的かつスケーラブルな表現であり、8LLMの値関連出力から自己教師される。
LLMが25の言語や文化で異なる価値を優先し、人間の価値観と言語モデリングの間の複雑な相互作用に光を当てる方法について検討する。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。