論文の概要: Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs
- arxiv url: http://arxiv.org/abs/2506.20666v1
- Date: Wed, 25 Jun 2025 17:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.899496
- Title: Inside you are many wolves: Using cognitive models to interpret value trade-offs in LLMs
- Title(参考訳): 内部には多くのオオカミがいる:認知モデルを用いてLLMの価値トレードオフを解釈する
- Authors: Sonia K. Murthy, Rosie Zhao, Jennifer Hu, Sham Kakade, Markus Wulfmeier, Peng Qian, Tomer Ullman,
- Abstract要約: 我々は,LLMが人間のようなトレードオフを表現する程度を,丁寧な発話の認知モデルを用いて解釈する。
本研究は, 理論的推論モデルにおいて, ソーシャルユーティリティよりも高い情報ユーティリティのパターンと, 数学的推論においてより強力なオープンソースモデルを示すものである。
- 参考スコア(独自算出の注目度): 13.120615048847434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigating everyday social situations often requires juggling conflicting goals, such as conveying a harsh truth, maintaining trust, all while still being mindful of another person's feelings. These value trade-offs are an integral part of human decision-making and language use, however, current tools for interpreting such dynamic and multi-faceted notions of values in LLMs are limited. In cognitive science, so-called "cognitive models" provide formal accounts of these trade-offs in humans, by modeling the weighting of a speaker's competing utility functions in choosing an action or utterance. In this work, we use a leading cognitive model of polite speech to interpret the extent to which LLMs represent human-like trade-offs. We apply this lens to systematically evaluate value trade-offs in two encompassing model settings: degrees of reasoning "effort" in frontier black-box models, and RL post-training dynamics of open-source models. Our results highlight patterns of higher informational utility than social utility in reasoning models, and in open-source models shown to be stronger in mathematical reasoning. Our findings from LLMs' training dynamics suggest large shifts in utility values early on in training with persistent effects of the choice of base model and pretraining data, compared to feedback dataset or alignment method. We show that our method is responsive to diverse aspects of the rapidly evolving LLM landscape, with insights for forming hypotheses about other high-level behaviors, shaping training regimes for reasoning models, and better controlling trade-offs between values during model training.
- Abstract(参考訳): 日常的な社会的状況をナビゲートするには、厳しい真実を伝え、信頼を維持しながら、他人の感情に気を配りながら、相反する目標をジャグリングする必要があることが多い。
これらの価値トレードオフは、人間の意思決定と言語使用の不可欠な部分であるが、LLMにおける値の動的な多面的概念を解釈するための現在のツールは限られている。
認知科学において、いわゆる「認知モデル」は、行動や発話を選択する際の話者の競合するユーティリティ機能の重み付けをモデル化することによって、人間のこれらのトレードオフの正式な説明を提供する。
本研究では,LLMが人間のようなトレードオフを表現する程度を,丁寧な発話の主観的認知モデルを用いて解釈する。
このレンズを用いて、フロンティアブラックボックスモデルにおける「便益」の推論の度合いと、オープンソースモデルのRLポストトレーニングダイナミクスの2つのモデル設定における価値トレードオフを体系的に評価する。
本研究は, 理論的推論モデルにおいて, ソーシャルユーティリティよりも高い情報ユーティリティのパターンと, 数学的推論においてより強力なオープンソースモデルを示すものである。
LLMsのトレーニングダイナミクスから得られた知見は、フィードバックデータセットやアライメント手法と比較して、ベースモデルの選択と事前学習データによる持続的な影響で、トレーニングの初期におけるユーティリティ値の大きな変化を示唆している。
我々は,LLMランドスケープの多様な側面に反応し,他のハイレベルな行動に関する仮説の形成,推論モデルのためのトレーニング体制の形成,モデルトレーニングにおける価値間のトレードオフのよりよい制御などについて考察した。
関連論文リスト
- Efficient or Powerful? Trade-offs Between Machine Learning and Deep Learning for Mental Illness Detection on Social Media [0.036136619420474754]
ソーシャルメディアプラットフォームは、うつ病、不安、自殺などの状況に関するユーザー生成の議論を捉え、メンタルヘルスのトレンドに関する貴重な洞察を提供する。
機械学習(ML)とディープラーニング(DL)モデルは、テキストデータからメンタルヘルス状態を分類するためにますます応用されている。
本研究では、ALBERTやGated Recurrent Units(GRU)といったディープラーニングアーキテクチャとともに、ロジスティック回帰、ランダムフォレスト、LightGBMを含む複数のMLモデルを評価する。
その結果,MLモデルとDLモデルでは,中規模データセットの分類性能が同等であることが示唆された。
論文 参考訳(メタデータ) (2025-03-03T00:51:41Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice [4.029252551781513]
本稿では,認知モデルとしての大規模言語モデルの有用性を高める新しい手法を提案する。
生態学的に有効な算術的データセットに基づいて事前訓練されたLLMは、従来の認知モデルよりも人間の行動を予測する。
論文 参考訳(メタデータ) (2024-05-29T17:37:14Z) - Explaining Large Language Models Decisions Using Shapley Values [1.223779595809275]
大規模言語モデル(LLM)は、人間の行動や認知過程をシミュレートするエキサイティングな可能性を開いた。
しかし, LLMを人体用スタンドインとして活用する妥当性は, いまだに不明である。
本稿では,モデルの出力に対する各プロンプト成分の相対的寄与を定量化するために,シェープリー値に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T22:49:43Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。