論文の概要: Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs
- arxiv url: http://arxiv.org/abs/2601.07972v1
- Date: Mon, 12 Jan 2026 20:07:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.93109
- Title: Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs
- Title(参考訳): 知っているがしない: LLMにおける収束的モラルとダイバージェント行動
- Authors: Jen-tse Huang, Jiantong Qin, Xueli Qiu, Sharon Levy, Michelle R. Kaufman, Mark Dredze,
- Abstract要約: Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kを提示する。
シナリオベースの決定では、ほぼ完全なクロスモデル一貫性が得られます。
人間と大言語モデルは、自己申告された値と実行された値の間の弱い対応を示す。
- 参考スコア(独自算出の注目度): 18.492825007258656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value alignment is central to the development of safe and socially compatible artificial intelligence. However, how Large Language Models (LLMs) represent and enact human values in real-world decision contexts remains under-explored. We present ValAct-15k, a dataset of 3,000 advice-seeking scenarios derived from Reddit, designed to elicit ten values defined by Schwartz Theory of Basic Human Values. Using both the scenario-based questions and the traditional value questionnaire, we evaluate ten frontier LLMs (five from U.S. companies, five from Chinese ones) and human participants ($n = 55$). We find near-perfect cross-model consistency in scenario-based decisions (Pearson $r \approx 1.0$), contrasting sharply with the broad variability observed among humans ($r \in [-0.79, 0.98]$). Yet, both humans and LLMs show weak correspondence between self-reported and enacted values ($r = 0.4, 0.3$), revealing a systematic knowledge-action gap. When instructed to "hold" a specific value, LLMs' performance declines up to $6.6%$ compared to merely selecting the value, indicating a role-play aversion. These findings suggest that while alignment training yields normative value convergence, it does not eliminate the human-like incoherence between knowing and acting upon values.
- Abstract(参考訳): 価値アライメントは、安全で社会的に互換性のある人工知能の開発の中心である。
しかし、Large Language Models (LLMs) が現実世界の意思決定コンテキストにおける人間の価値をどのように表現し、実現するかは、まだ未解明のままである。
Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kは、ベーシックヒューマンバリューのシュワルツ理論によって定義された10の値を引き出すように設計されている。
シナリオベースの質問と従来の価値アンケートの両方を用いて、米国企業5社、中国企業5社)と人間の参加者(n = 55$)を評価。
Pearson $r \approx 1.0$は、人間(r \in [-0.79, 0.98]$)の間で観察される広範囲な変動と対照的である。
しかし、人間とLLMの両者は、自己申告された値と実行された値(r = 0.4, 0.3$)の弱い対応を示し、体系的な知識と行動のギャップを明らかにしている。
特定の値を保持するように指示された場合、LLMのパフォーマンスは単に値を選択するだけで、ロールプレイの逆転を示すのに比べて6.6%まで低下する。
これらの結果は、アライメントトレーニングが規範的価値収束をもたらす一方で、その価値に対する知識と行動の間の人間的な不整合を排除していないことを示唆している。
関連論文リスト
- CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7931130268412194]
CLASHは345個のハイインパクトジレンマと3,795個の異なる値の個々の視点からなるデータセットである。
CLASHは、価値に基づく意思決定プロセスの批判的かつ未調査な側面の研究を可能にする。
GPT-5やClaude-4-Sonnetのような強力なプロプライエタリモデルでさえ、曖昧な決定に苦戦している。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。