論文の概要: HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns
- arxiv url: http://arxiv.org/abs/2601.10198v1
- Date: Thu, 15 Jan 2026 08:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.067055
- Title: HUMANLLM: Benchmarking and Reinforcing LLM Anthropomorphism via Human Cognitive Patterns
- Title(参考訳): HUMANLLM:人間の認知パターンによるLLM擬人化のベンチマークと強化
- Authors: Xintao Wang, Jian Yang, Weiyuan Li, Rui Xie, Jen-tse Huang, Jun Gao, Shuai Huang, Yueping Kang, Liyuan Gou, Hongwei Feng, Yanghua Xiao,
- Abstract要約: 本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
12,000の学術論文から244のパターンを構築し、2-5のパターンが相互に強化、衝突、変調されるシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個々のパターンの忠実度と創発的なマルチパターンのダイナミクスを評価し、強い人間のアライメントを達成する。
- 参考スコア(独自算出の注目度): 59.17423586203706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in reasoning and generation, serving as the foundation for advanced persona simulation and Role-Playing Language Agents (RPLAs). However, achieving authentic alignment with human cognitive and behavioral patterns remains a critical challenge for these agents. We present HUMANLLM, a framework treating psychological patterns as interacting causal forces. We construct 244 patterns from ~12,000 academic papers and synthesize 11,359 scenarios where 2-5 patterns reinforce, conflict, or modulate each other, with multi-turn conversations expressing inner thoughts, actions, and dialogue. Our dual-level checklists evaluate both individual pattern fidelity and emergent multi-pattern dynamics, achieving strong human alignment (r=0.91) while revealing that holistic metrics conflate simulation accuracy with social desirability. HUMANLLM-8B outperforms Qwen3-32B on multi-pattern dynamics despite 4x fewer parameters, demonstrating that authentic anthropomorphism requires cognitive modeling--simulating not just what humans do, but the psychological processes generating those behaviors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なペルソナシミュレーションとロールプレイング言語エージェント(RPLA)の基礎として機能し、推論と生成において顕著な能力を示している。
しかしながら、人間の認知や行動パターンと真に一致させることは、これらのエージェントにとって重要な課題である。
本稿では,心理的パターンを因果力の相互作用として扱うフレームワークであるHUMANLLMを提案する。
我々は,約12,000の学術論文から244のパターンを構築し,内的思考,行動,対話を表現するマルチターン会話を用いて,2-5パターンの強化,対立,相互変調を行うシナリオ11,359を合成する。
我々の二重レベルチェックリストは、個人パターンの忠実度と創発的マルチパターンのダイナミックスの両方を評価し、強い人間のアライメント(r=0.91)を達成するとともに、全体論的指標がシミュレーション精度と社会的好ましさを両立させることを示した。
HUMANLLM-8Bは、4倍のパラメータにもかかわらず、Qwen3-32Bを多パターン力学で上回り、真正の人間同型は認知モデルを必要とすることを証明している。
関連論文リスト
- TwinVoice: A Multi-dimensional Benchmark Towards Digital Twins via LLM Persona Simulation [55.55404595177229]
大型言語モデル(LLM)は、人間のような能力を示す。
TwinVoiceは、さまざまな現実世界のコンテキストにわたるペルソナシミュレーションを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-10-29T14:00:42Z) - Multi-turn Evaluation of Anthropomorphic Behaviours in Large Language Models [20.077019480409657]
ユーザーが大きな言語モデル(LLM)を人為的に形作る傾向は、AI開発者、研究者、政策立案者への関心が高まっている。
本稿では,現実的かつ多様な環境下での人為的 LLM の挙動を実証的に評価する手法を提案する。
まず,14の人為的行動のマルチターン評価を開発する。
次に,ユーザインタラクションのシミュレーションを用いて,スケーラブルで自動化されたアプローチを提案する。
第3に,対話型大規模人体調査(N=1101)を実施し,実際のユーザの人文的知覚を予測するモデル行動を検証する。
論文 参考訳(メタデータ) (2025-02-10T22:09:57Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。