論文の概要: HumanLLM: Towards Personalized Understanding and Simulation of Human Nature
- arxiv url: http://arxiv.org/abs/2601.15793v1
- Date: Thu, 22 Jan 2026 09:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.557045
- Title: HumanLLM: Towards Personalized Understanding and Simulation of Human Nature
- Title(参考訳): 人間LLM:人間自然のパーソナライズされた理解とシミュレーションを目指して
- Authors: Yuxuan Lei, Tianfu Wang, Jianxun Lian, Zhengyu Hu, Defu Lian, Xing Xie,
- Abstract要約: HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
- 参考スコア(独自算出の注目度): 72.55730315685837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by the remarkable progress of large language models (LLMs) in objective tasks like mathematics and coding, there is growing interest in their potential to simulate human behavior--a capability with profound implications for transforming social science research and customer-centric business insights. However, LLMs often lack a nuanced understanding of human cognition and behavior, limiting their effectiveness in social simulation and personalized applications. We posit that this limitation stems from a fundamental misalignment: standard LLM pretraining on vast, uncontextualized web data does not capture the continuous, situated context of an individual's decisions, thoughts, and behaviors over time. To bridge this gap, we introduce HumanLLM, a foundation model designed for personalized understanding and simulation of individuals. We first construct the Cognitive Genome Dataset, a large-scale corpus curated from real-world user data on platforms like Reddit, Twitter, Blogger, and Amazon. Through a rigorous, multi-stage pipeline involving data filtering, synthesis, and quality control, we automatically extract over 5.5 million user logs to distill rich profiles, behaviors, and thinking patterns. We then formulate diverse learning tasks and perform supervised fine-tuning to empower the model to predict a wide range of individualized human behaviors, thoughts, and experiences. Comprehensive evaluations demonstrate that HumanLLM achieves superior performance in predicting user actions and inner thoughts, more accurately mimics user writing styles and preferences, and generates more authentic user profiles compared to base models. Furthermore, HumanLLM shows significant gains on out-of-domain social intelligence benchmarks, indicating enhanced generalization.
- Abstract(参考訳): 数学やコーディングといった客観的なタスクにおける大きな言語モデル(LLM)の顕著な進歩によって、人間の振る舞いをシミュレートする可能性への関心が高まっている。
しかし、LLMは人間の認知と行動に関する微妙な理解を欠くことが多く、社会的シミュレーションやパーソナライズド・アプリケーションにおけるその効果を制限している。
我々は、この制限は基本的なミスアライメントに起因していると仮定する: 広大でコンテクスチュアライズされていないWebデータに対する標準LLM事前トレーニングは、個人の決定、思考、行動の連続的、位置的コンテキストを時間とともに捉えない。
このギャップを埋めるために、個人のパーソナライズされた理解とシミュレーションを目的とした基礎モデルであるHumanLLMを導入する。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上の現実世界のユーザデータからキュレートされた大規模なコーパスであるCognitive Genome Datasetを構築しました。
データフィルタリング、合成、品質管理を含む厳格で多段階的なパイプラインを通じて、550万以上のユーザログを自動的に抽出して、リッチなプロファイル、振る舞い、思考パターンを抽出する。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルに広範囲の個人化された人間の行動、思考、経験を予測する。
総合的な評価から,HumanLLMはユーザの行動や内的思考を予測する上で優れた性能を示し,ユーザの書き方や好みをより正確に模倣し,ベースモデルよりも正確なユーザプロファイルを生成する。
さらに、HumanLLMは、ドメイン外のソーシャルインテリジェンスベンチマークにおいて大きな向上を示し、一般化の強化を示している。
関連論文リスト
- OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation [56.47029531207105]
OPERAは、ユーザペルソナ、ブラウザの観察、きめ細かいWebアクション、そして自己報告されたジャストインタイム論理を包括的にキャプチャする最初のパブリックデータセットである。
我々は,現在のLCMがユーザの次の行動と合理的性をどの程度予測できるかを評価するための最初のベンチマークを確立する。
論文 参考訳(メタデータ) (2025-06-05T21:37:49Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data [28.900987544062257]
BIG5-CHATは、人間が言語で人格を表現する方法のモデルを構築するために設計された10万の対話を含む大規模なデータセットである。
提案手法は,BFIやIPIP-NEOなどの人格評価に優れ,特徴相関は人的データとより密に一致している。
実験の結果,高良性,高良性,低外転,低神経障害を訓練したモデルでは,推論タスクの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-10-21T20:32:27Z) - Personality Alignment of Large Language Models [30.710131188931317]
パーソナリティ・アライメント(Personality Alignment)は、大きな言語モデルと個々のユーザの好みを合わせることを目的としている。
このデータセットには、複数のパーソナリティアセスメントを含む、32万人以上の実際の被験者のデータが含まれている。
本研究では,個人の行動選好を効率的に整合させるために,アクティベーション介入最適化手法を開発した。
私たちの仕事は、未来のAIシステムが真にパーソナライズされた方法で意思決定と推論を行うための道を開くものです。
論文 参考訳(メタデータ) (2024-08-21T17:09:00Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Human Simulacra: Benchmarking the Personification of Large Language Models [38.21708264569801]
大規模言語モデル(LLM)は、人間の知性の側面を忠実に模倣するシステムとして認識されている。
本稿では,仮想キャラクタのライフストーリーをゼロから構築するためのフレームワークを提案する。
実験により, 構築したシミュラクラは, 対象キャラクタと一致した擬人化応答を生成できることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:11:14Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。