論文の概要: HugAgent: Evaluating LLMs in Simulating Human-Like Individual Reasoning on Open-Ended Tasks
- arxiv url: http://arxiv.org/abs/2510.15144v1
- Date: Thu, 16 Oct 2025 21:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.398911
- Title: HugAgent: Evaluating LLMs in Simulating Human-Like Individual Reasoning on Open-Ended Tasks
- Title(参考訳): HugAgent:オープンエンドタスクにおける人間ライクな個人推論のシミュレーションにおけるLLMの評価
- Authors: Chance Jiajie Li, Zhenze Mo, Yuhan Tang, Ao Qu, Jiayi Wu, Kaiya Ivy Zhao, Yulu Gan, Jie Fan, Jiangbo Yu, Hang Jiang, Paul Pu Liang, Jinhua Zhao, Luis Alberto Alonso Pastor, Kent Larson,
- Abstract要約: HugAgentは、平均的個人的推論適応のためのベンチマークである。
タスクは、特定の人がどのように推論し、新しいシナリオにおける信念を更新するかを予測することである。
HugAgentは、スケールとシステマティックなストレステストのための合成トラックと、有効な"アウトルード"推論データのための人間のトラックというデュアルトラックデザインを採用している。
- 参考スコア(独自算出の注目度): 27.80877165363182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulating human reasoning in open-ended tasks has been a long-standing aspiration in AI and cognitive science. While large language models now approximate human responses at scale, they remain tuned to population-level consensus, often erasing the individuality of reasoning styles and belief trajectories. To advance the vision of more human-like reasoning in machines, we introduce HugAgent (Human-Grounded Agent Benchmark), a benchmark for average-to-individual reasoning adaptation. The task is to predict how a specific person would reason and update their beliefs in novel scenarios, given partial evidence of their past views. HugAgent adopts a dual-track design: a synthetic track for scale and systematic stress tests, and a human track for ecologically valid, "out-loud" reasoning data. This design enables scalable, reproducible evaluation of intra-agent fidelity: whether models can capture not just what people believe, but how their reasoning evolves. Experiments with state-of-the-art LLMs reveal persistent adaptation gaps, positioning HugAgent as the first extensible benchmark for aligning machine reasoning with the individuality of human thought. Our benchmark and chatbot are open-sourced as HugAgent (https://anonymous.4open.science/r/HugAgent) and TraceYourThinking (https://anonymous.4open.science/r/trace-your-thinking).
- Abstract(参考訳): オープンエンドタスクにおける人間の推論のシミュレーションは、AIと認知科学における長年の志望であった。
大規模な言語モデルは現在では人間の反応を近似しているが、人口レベルでのコンセンサスに調整され続けており、しばしば推論スタイルや信念の軌跡の個性を取り除いている。
機械におけるより人間的な推論のビジョンを推し進めるため,HugAgent (Human-Grounded Agent Benchmark) を導入する。
その課題は、ある人物が、過去の見解の一部的な証拠から、新しいシナリオにおける信念をどのように推論し、更新するかを予測することである。
HugAgentは、スケールとシステマティックなストレステストのための合成トラックと、生態学的に有効な「アウトルード」推論データのための人間のトラックというデュアルトラックデザインを採用している。
この設計は、モデルが人々の信じるものだけでなく、彼らの推論がどのように進化するかをキャプチャできるかどうかという、スケーラブルで再現可能な、エージェント内の忠実さの評価を可能にする。
最先端のLLMを用いた実験では、HugAgentが機械推論と人間の思考の個性との整合性を示す最初の拡張可能なベンチマークとして位置づけられ、永続的な適応ギャップが明らかになっている。
私たちのベンチマークとチャットボットはHugAgent(https://anonymous.4open.science/r/HugAgent)とTraceYourThinking(https://anonymous.4open.science/r/trace-yourthinking)としてオープンソース化されています。
関連論文リスト
- Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。
人間の外見は、これらの障害に対処するための簡単な手がかりとなる。
本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T12:19:26Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - Empirically evaluating commonsense intelligence in large language models with large-scale human judgments [4.212429064310439]
本稿では,人工知能における常識評価手法を提案する。
モデルの判断と人口の対応を計測する。
私たちのフレームワークは、異なる、しばしば互換性のない、知識の社会的備蓄を持つ人間の集合体にAIモデルを適用することの要求に寄与します。
論文 参考訳(メタデータ) (2025-05-15T13:55:27Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - EgoAgent: A Joint Predictive Agent Model in Egocentric Worlds [119.02266432167085]
EgoAgentは単一変換器内での表現、予測、動作を同時に学習する統合エージェントモデルである。
EgoAgentは、タスクをインターリーブされた状態とアクションのシーケンスとして定式化することで、これらの能力間の因果的および時間的依存関係を明示的にモデル化する。
EgoAgentの画像分類,エゴセントリックな将来の状態予測,3次元人間の動作予測といった代表的課題に対する総合的な評価は,本手法の優位性を示している。
論文 参考訳(メタデータ) (2025-02-09T11:28:57Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Neural Amortized Inference for Nested Multi-agent Reasoning [54.39127942041582]
本研究では,人間のような推論能力と計算限界のギャップを埋める新しい手法を提案する。
提案手法を2つの挑戦的マルチエージェント相互作用領域で評価する。
論文 参考訳(メタデータ) (2023-08-21T22:40:36Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。