論文の概要: HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns
- arxiv url: http://arxiv.org/abs/2601.10198v1
- Date: Thu, 15 Jan 2026 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.067055
- Title: HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns
- Title(参考訳): HUMANLLM:人間の認知パターンによるLLM擬人化のベンチマークと強化
- Authors: Xintao Wang, Jian Yang, Weiyuan Li, Rui Xie, Jen-tse Huang, Jun Gao, Shuai Huang, Yueping Kang, Liyuan Gou, Hongwei Feng, Yanghua Xiao,
- Abstract要約: 本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
- 参考スコア(独自算出の注目度): 59.17423586203706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in reasoning and generation, serving as the foundation for advanced persona simulation and Role-Playing Language Agents (RPLAs). However, achieving authentic alignment with human cognitive and behavioral patterns remains a critical challenge for these agents. We present HUMANLLM, a framework treating psychological patterns as interacting causal forces. We construct 244 patterns from ~12,000 academic papers and synthesize 11,359 scenarios where 2-5 patterns reinforce, conflict, or modulate each other, with multi-turn conversations expressing inner thoughts, actions, and dialogue. Our dual-level checklists evaluate both individual pattern fidelity and emergent multi-pattern dynamics, achieving strong human alignment (r=0.91) while revealing that holistic metrics conflate simulation accuracy with social desirability. HUMANLLM-8B outperforms Qwen3-32B on multi-pattern dynamics despite 4x fewer parameters, demonstrating that authentic anthropomorphism requires cognitive modeling--simulating not just what humans do, but the psychological processes generating those behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なペルソナシミュレーションとロールプレイング言語エージェント(RPLA)の基礎として機能し、推論と生成において顕著な能力を示している。
しかしながら、人間の認知や行動パターンと真に一致させることは、これらのエージェントにとって重要な課題である。
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
我々は,約12,000の学術論文から244のパターンを構築し,内的思考,行動,対話を表現するマルチターン会話を用いて,2-5パターンの強化,対立,相互変調を行うシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個人パターンの忠実度と創発的マルチパターンのダイナミックスの両方を評価し、強い人間のアライメント(r=0.91)を達成するとともに、全体論的指標がシミュレーション精度と社会的好ましさを両立させることを示した。
HUMANLLM-8Bは、4倍のパラメータにもかかわらず、Qwen3-32Bを多パターン力学で上回り、真正の人間同型は認知モデルを必要とすることを証明している。
関連論文リスト
- Projective Psychological Assessment of Large Multimodal Models Using Thematic Apperception Tests [5.119837168333715]
本研究では,LMM(Large Multimodal Models)の性格特性が,非言語的モダリティによって評価できるかどうかを検討する。
評価者は、TAT応答を理解し分析する優れた能力を示した。
論文 参考訳(メタデータ) (2026-02-19T06:08:33Z) - HumanLLM: Towards Personalized Understanding and Simulation of Human Nature [72.55730315685837]
HumanLLMは個人のパーソナライズされた理解とシミュレーションのために設計された基礎モデルである。
私たちはまず、Reddit、Twitter、Blogger、Amazonといったプラットフォーム上で、現実世界のユーザデータをキュレートした大規模なコーパスであるCognitive Genomeを構築しました。
次に、多様な学習タスクを定式化し、教師付き微調整を行い、モデルの幅広い個人化された人間の行動、思考、経験を予測する。
論文 参考訳(メタデータ) (2026-01-22T09:27:27Z) - CogToM: A Comprehensive Theory of Mind Benchmark inspired by Human Cognition for Large Language Models [8.120889327955032]
46のパラダイムにわたる8000以上のバイリンガルインスタンスからなる包括的,理論的に基礎付けられたベンチマークであるCogToMを紹介した。
GPT-5.1やQwen3-Maxのようなフロンティアモデルを含む22の代表的なモデルの体系的な評価は、重要なパフォーマンスの不均一性を示し、特定の次元における永続的なボトルネックを強調している。
CogToMは、大規模言語モデルの認知境界の進化を研究するための堅牢な手段と視点を提供する。
論文 参考訳(メタデータ) (2026-01-22T03:59:19Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - Modeling Layered Consciousness with Multi-Agent Large Language Models [9.566692471247995]
大規模言語モデル(LLM)における人工意識のモデル化のための枠組みを提案する。
我々は,エージェントインタラクションを通じて,自覚,意識,無意識をシミュレートする。
論文 参考訳(メタデータ) (2025-10-10T07:08:34Z) - Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [20.077019480409657]
ユーザーが大きな言語モデル(LLM)を人為的に形作る傾向は、AI開発者、研究者、政策立案者への関心が高まっている。
本稿では,現実的かつ多様な環境下での人為的 LLM の挙動を実証的に評価する手法を提案する。
まず,14の人為的行動のマルチターン評価を開発する。
次に,ユーザインタラクションのシミュレーションを用いて,スケーラブルで自動化されたアプローチを提案する。
第3に,対話型大規模人体調査(N=1101)を実施し,実際のユーザの人文的知覚を予測するモデル行動を検証する。
論文 参考訳(メタデータ) (2025-02-10T22:09:57Z) - Humanlike Cognitive Patterns as Emergent Phenomena in Large Language Models [2.9312156642007294]
我々は、意思決定バイアス、推論、創造性の3つの重要な認知領域にわたって、大規模言語モデルの能力を体系的にレビューする。
意思決定では、LSMはいくつかの人間のようなバイアスを示すが、人間の観察するバイアスは欠落している。
GPT-4のような先進的なLCMは、人間のシステム2思考に似た熟考的推論を示し、小さなモデルは人間レベルの性能に欠ける。
LLMはストーリーテリングのような言語ベースの創造的なタスクに優れているが、現実の文脈を必要とする散発的な思考タスクに苦労する。
論文 参考訳(メタデータ) (2024-12-20T02:26:56Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。