論文の概要: Language Model Goal Selection Differs from Humans' in an Open-Ended Task
- arxiv url: http://arxiv.org/abs/2603.03295v1
- Date: Fri, 06 Feb 2026 15:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.119268
- Title: Language Model Goal Selection Differs from Humans' in an Open-Ended Task
- Title(参考訳): オープンエンドタスクにおける「言語モデル目標選択」
- Authors: Gaia Molinaro, Dave August, Danielle Perszyk, Anne G. E. Collins,
- Abstract要約: 大規模言語モデル(LLM)は、ますます人間の意思決定に統合されている。
認知科学から借用した制御されたオープンエンド学習課題において, LLMsを人間の目標選択のプロキシとして評価する。
- 参考スコア(独自算出の注目度): 2.012425476229879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) get integrated into human decision-making, they are increasingly choosing goals autonomously rather than only completing human-defined ones, assuming they will reflect human preferences. However, human-LLM similarity in goal selection remains largely untested. We directly assess the validity of LLMs as proxies for human goal selection in a controlled, open-ended learning task borrowed from cognitive science. Across four state-of-the-art models (GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5, and Centaur), we find substantial divergence from human behavior. While people gradually explore and learn to achieve goals with diversity across individuals, most models exploit a single identified solution (reward hacking) or show surprisingly low performance, with distinct patterns across models and little variability across instances of the same model. Even Centaur, explicitly trained to emulate humans in experimental settings, poorly captures people's goal selection. Chain-of-thought reasoning and persona steering provide limited improvements. These findings highlight the uniqueness of human goal selection, cautioning against replacing it with current models in applications such as personal assistance, scientific discovery, and policy research.
- Abstract(参考訳): 大きな言語モデル(LLM)が人間の意思決定に統合されるにつれて、人間の好みを反映すると仮定して、人間定義のモデルのみを完成させるのではなく、自律的に目標を選択することがますます増えています。
しかし、目標選択における人間-LLM類似性はほとんど証明されていない。
本研究では,認知科学から借用したオープンエンド学習課題において,LLMを人的目標選択のプロキシとして直接評価する。
4つの最先端モデル(GPT-5、Gemini 2.5 Pro、Claude Sonnet 4.5、Centaur)にまたがって、人間の行動とはかなり異なる。
個人間の多様性で目標を徐々に探求し、学習する一方で、ほとんどのモデルは、単一の特定されたソリューション(リワードハック)を利用するか、驚くほど低いパフォーマンスを示します。
実験環境で人間をエミュレートするように明示的に訓練されたセンターでさえ、人々のゴール選択をうまく捉えていない。
チェーンオブ思考の推論とペルソナのステアリングは、限定的な改善を提供する。
これらの発見は、人間のゴール選択の独特さを強調し、個人支援、科学的発見、政策研究などの応用における現在のモデルに置き換えることに注意する。
関連論文リスト
- HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - Learning to Imitate with Less: Efficient Individual Behavior Modeling in Chess [10.090379544417432]
Maia4Allは、個々の意思決定スタイルを効率的に学習し、適応するように設計されたフレームワークである。
Maia4Allはチェスの個人的行動モデリングを20ゲームで達成している。
論文 参考訳(メタデータ) (2025-07-29T04:09:31Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Towards Neural Network based Cognitive Models of Dynamic Decision-Making by Humans [16.72938921687168]
私たちはインスタンスベースの学習(IBL)に基づいて、人間の決定は過去に遭遇した同様の状況に基づいていると仮定します。
本研究では,2つの新しい注意型ニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T20:28:03Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Promptable Behaviors: Personalizing Multi-Objective Rewards from Human
Preferences [53.353022588751585]
本稿では,ロボットエージェントの多種多様な嗜好に対する効率的なパーソナライズを促進する新しいフレームワークであるPromptable Behaviorsを紹介する。
我々は、異なるタイプの相互作用を活用することによって、人間の嗜好を推測する3つの異なる方法を紹介した。
本稿では,ProcTHOR と Robothor のナビゲーションタスクをパーソナライズしたオブジェクトゴールナビゲーションおよびエスケープナビゲーションタスクにおいて,提案手法の評価を行う。
論文 参考訳(メタデータ) (2023-12-14T21:00:56Z) - Learning signatures of decision making from many individuals playing the
same game [54.33783158658077]
我々は、個人の「行動スタイル」を符号化する表現を学習する予測フレームワークを設計する。
我々は,3本腕のバンディットタスクを行う1,000人の人間による大規模行動データセットに本手法を適用した。
論文 参考訳(メタデータ) (2023-02-21T21:41:53Z) - Weak Human Preference Supervision For Deep Reinforcement Learning [48.03929962249475]
人間の好みによる現在の報酬学習は、報酬関数にアクセスせずに複雑な強化学習(RL)タスクを解決するために使用できる。
そこで我々は,人間の嗜好スケーリングモデルを開発した,弱い人間の嗜好監視フレームワークを提案する。
提案手法では,環境との相互作用の 0.01% 未満の人的フィードバックしか必要としない。
論文 参考訳(メタデータ) (2020-07-25T10:37:15Z) - LESS is More: Rethinking Probabilistic Models of Human Behavior [36.020541093946925]
ボルツマンノイズレーショナル決定モデルは、人々は報酬関数を概ね最適化していると仮定する。
人間の軌道は連続した空間にあり、報酬関数に影響を及ぼす連続的な価値ある特徴を持つ。
報酬のみでなく、軌道間の距離を明示的に考慮するモデルを導入する。
論文 参考訳(メタデータ) (2020-01-13T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。