論文の概要: HugAgent: Benchmarking LLMs for Simulation of Individualized Human Reasoning
- arxiv url: http://arxiv.org/abs/2510.15144v3
- Date: Thu, 06 Nov 2025 23:39:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 16:56:01.092896
- Title: HugAgent: Benchmarking LLMs for Simulation of Individualized Human Reasoning
- Title(参考訳): HugAgent: 個人化された人間推論のシミュレーションのためのLLMのベンチマーク
- Authors: Chance Jiajie Li, Zhenze Mo, Yuhan Tang, Ao Qu, Jiayi Wu, Kaiya Ivy Zhao, Yulu Gan, Jie Fan, Jiangbo Yu, Hang Jiang, Paul Pu Liang, Jinhua Zhao, Luis Alberto Alonso Pastor, Kent Larson,
- Abstract要約: 人間の推論シミュレーションを3次元で再考するHugAgentを紹介した。
このベンチマークはHugAgentとTraceYourThinkingとしてオープンソース化されている。
- 参考スコア(独自算出の注目度): 27.80877165363182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulating human reasoning in open-ended tasks has long been a central aspiration in AI and cognitive science. While large language models now approximate human responses at scale, they remain tuned to population-level consensus, often erasing the individuality of reasoning styles and belief trajectories. To advance the vision of more human-like reasoning in machines, we introduce HugAgent (Human-Grounded Agent Benchmark), which rethinks human reasoning simulation along three dimensions: (i) from averaged to individualized reasoning, (ii) from behavioral mimicry to cognitive alignment, and (iii) from vignette-based to open-ended data. The benchmark evaluates whether a model can predict a specific person's behavioral responses and the underlying reasoning dynamics in out-of-distribution scenarios, given partial evidence of their prior views. HugAgent adopts a dual-track design: a human track that automates and scales the think-aloud method to collect ecologically valid human reasoning data, and a synthetic track for further scalability and systematic stress testing. This architecture enables low-cost, extensible expansion to new tasks and populations. Experiments with state-of-the-art language models reveal persistent adaptation gaps, positioning HugAgent as the first extensible benchmark for aligning machine reasoning with the individuality of human thought. The benchmark, along with its complete data collection pipeline and companion chatbot, is open-sourced as HugAgent (https://anonymous.4open.science/r/HugAgent) and TraceYourThinking (https://anonymous.4open.science/r/trace-your-thinking).
- Abstract(参考訳): オープンエンドタスクにおける人間の推論をシミュレートすることは、AIと認知科学における中心的な願望であった。
大規模な言語モデルは現在では人間の反応を近似しているが、人口レベルでのコンセンサスに調整され続けており、しばしば推論スタイルや信念の軌跡の個性を消去している。
機械におけるより人間的な推論のビジョンを進めるために、人間の推論シミュレーションを3次元に沿って再考するHugAgent(Human-Grounded Agent Benchmark)を紹介します。
(i)平均から個別の推論まで
(二)行動模倣から認知アライメント、及び
(iii)ヴィグネットベースからオープンエンドデータ。
このベンチマークは、モデルが特定の人の行動反応を予測できるかどうかを評価する。
HugAgentは、生態学的に有効な人間の推論データを収集するためのシンク・アラウド法を自動化・スケールするヒューマントラックと、さらなるスケーラビリティと系統的なストレステストのための合成トラックというデュアルトラックデザインを採用している。
このアーキテクチャにより、新しいタスクや人口への低コストで拡張可能な拡張が可能になる。
最先端の言語モデルを用いた実験は、HugAgentを人間の思考の個性と機械推論を整合させる最初の拡張可能なベンチマークとして位置づけ、永続的な適応ギャップを明らかにしている。
このベンチマークは、完全なデータ収集パイプラインと共同チャットボットとともに、HugAgent(https://anonymous.4open.science/r/HugAgent)とTraceYourThinking(https://anonymous.4open.science/r/trace-your-thinking)としてオープンソース化されている。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds [119.02266432167085]
EgoAgentは単一変換器内での表現、予測、動作を同時に学習する統合エージェントモデルである。
EgoAgentは、タスクをインターリーブされた状態とアクションのシーケンスとして定式化することで、これらの能力間の因果的および時間的依存関係を明示的にモデル化する。
EgoAgentの画像分類,エゴセントリックな将来の状態予測,3次元人間の動作予測といった代表的課題に対する総合的な評価は,本手法の優位性を示している。
論文 参考訳(メタデータ) (2025-02-09T11:28:57Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。