論文の概要: Using cognitive models to reveal value trade-offs in language models
- arxiv url: http://arxiv.org/abs/2506.20666v3
- Date: Mon, 06 Oct 2025 17:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.255595
- Title: Using cognitive models to reveal value trade-offs in language models
- Title(参考訳): 認知モデルを用いて言語モデルにおける価値トレードオフを明らかにする
- Authors: Sonia K. Murthy, Rosie Zhao, Jennifer Hu, Sham Kakade, Markus Wulfmeier, Peng Qian, Tomer Ullman,
- Abstract要約: 我々は2つのモデル設定を含む価値トレードオフを評価するために、丁寧な音声の認知モデルを使用する。
本研究は,モデルのデフォルト行動の推論において,ソーシャルユーティリティよりも高い情報ユーティリティのパターンを強調した。
私たちのフレームワークは、さまざまなモデルタイプにまたがる価値のトレードオフを調査するための柔軟なツールを提供します。
- 参考スコア(独自算出の注目度): 12.178109894945981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value trade-offs are an integral part of human decision-making and language use, however, current tools for interpreting such dynamic and multi-faceted notions of values in LLMs are limited. In cognitive science, so-called "cognitive models" provide formal accounts of such trade-offs in humans, by modeling the weighting of a speaker's competing utility functions in choosing an action or utterance. Here we use a leading cognitive model of polite speech to systematically evaluate value trade-offs in two encompassing model settings: degrees of reasoning "effort" in frontier black-box models, and RL post-training dynamics of open-source models. Our results highlight patterns of higher informational utility than social utility in reasoning models' default behavior, and demonstrate that these patterns shift in predictable ways when models are prompted to prioritize certain goals over others. Our findings from LLMs' training dynamics suggest large shifts in utility values early on in training with persistent effects of the choice of base model and pretraining data, compared to feedback dataset or alignment method. Our framework offers a flexible tool for probing value trade-offs across diverse model types, providing insights for generating hypotheses about other social behaviors such as sycophancy and for shaping training regimes that better control trade-offs between values during model development.
- Abstract(参考訳): 価値のトレードオフは人間の意思決定と言語利用の不可欠な部分であるが、LLMにおけるこのような動的かつ多面的な価値概念を解釈するための現在のツールは限られている。
認知科学において、いわゆる「認知モデル」は、行動や発話を選択する際の話者の競合するユーティリティ機能の重み付けをモデル化することによって、人間のそのようなトレードオフの正式な説明を提供する。
ここでは、最前線のブラックボックスモデルにおける「便益」の推論の度合いと、オープンソースモデルのRLポストトレーニングダイナミクスの2つのモデル設定における価値トレードオフを体系的に評価するために、丁寧な音声の主認知モデルを用いる。
本研究は,モデルが他者よりも特定の目標を優先するよう促された場合,これらのパターンが予測可能な方法で変化することを示す。
LLMsのトレーニング力学から得られた知見は、フィードバックデータセットやアライメント手法と比較して、ベースモデルの選択と事前学習データによる持続的な影響で、トレーニングの初期におけるユーティリティ値の大きな変化を示唆している。
我々のフレームワークは、様々なモデルタイプにまたがる価値トレードオフを探索するための柔軟なツールを提供し、梅毒のような他の社会的行動に関する仮説や、モデル開発中の価値間のトレードオフをよりよく制御するトレーニング体制を形成するための洞察を提供する。
関連論文リスト
- Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - The Pragmatic Mind of Machines: Tracing the Emergence of Pragmatic Competence in Large Language Models [6.187227278086245]
大規模言語モデル(LLM)は、不規則な解決や推論の理論を含む社会的知性に新たな能力を示す。
本研究では,異なる学習段階におけるLLMが話者意図を正確に推測できるかどうかを評価する。
プレトレーニング後, 教師付き微調整(SFT), 選好最適化の3段階にわたる22個のLDMを系統的に評価した。
論文 参考訳(メタデータ) (2025-05-24T04:24:59Z) - Efficient or Powerful? Trade-offs Between Machine Learning and Deep Learning for Mental Illness Detection on Social Media [0.036136619420474754]
ソーシャルメディアプラットフォームは、うつ病、不安、自殺などの状況に関するユーザー生成の議論を捉え、メンタルヘルスのトレンドに関する貴重な洞察を提供する。
機械学習(ML)とディープラーニング(DL)モデルは、テキストデータからメンタルヘルス状態を分類するためにますます応用されている。
本研究では、ALBERTやGated Recurrent Units(GRU)といったディープラーニングアーキテクチャとともに、ロジスティック回帰、ランダムフォレスト、LightGBMを含む複数のMLモデルを評価する。
その結果,MLモデルとDLモデルでは,中規模データセットの分類性能が同等であることが示唆された。
論文 参考訳(メタデータ) (2025-03-03T00:51:41Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice [4.029252551781513]
本稿では,認知モデルとしての大規模言語モデルの有用性を高める新しい手法を提案する。
生態学的に有効な算術的データセットに基づいて事前訓練されたLLMは、従来の認知モデルよりも人間の行動を予測する。
論文 参考訳(メタデータ) (2024-05-29T17:37:14Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。