論文の概要: MotiveBench: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?
- arxiv url: http://arxiv.org/abs/2506.13065v1
- Date: Mon, 16 Jun 2025 03:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.396398
- Title: MotiveBench: How Far Are We From Human-Like Motivational Reasoning in Large Language Models?
- Title(参考訳): MotiveBench: 大規模言語モデルにおける人間のようなモチベーション推論からどのくらい離れているか?
- Authors: Xixian Yong, Jianxun Lian, Xiaoyuan Yi, Xiao Zhou, Xing Xie,
- Abstract要約: MotiveBenchは200のリッチなコンテキストシナリオと、複数のモチベーションレベルをカバーする600の推論タスクで構成されている。
私たちは7つの人気のあるモデルファミリーの実験を行い、各ファミリー内の異なるスケールとバージョンを比較します。
その結果、最も先進的なLSMでさえ、人間のような動機づけを達成できないことが明らかとなった。
- 参考スコア(独自算出の注目度): 43.58975298601617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have been widely adopted as the core of agent frameworks in various scenarios, such as social simulations and AI companions. However, the extent to which they can replicate human-like motivations remains an underexplored question. Existing benchmarks are constrained by simplistic scenarios and the absence of character identities, resulting in an information asymmetry with real-world situations. To address this gap, we propose MotiveBench, which consists of 200 rich contextual scenarios and 600 reasoning tasks covering multiple levels of motivation. Using MotiveBench, we conduct extensive experiments on seven popular model families, comparing different scales and versions within each family. The results show that even the most advanced LLMs still fall short in achieving human-like motivational reasoning. Our analysis reveals key findings, including the difficulty LLMs face in reasoning about "love & belonging" motivations and their tendency toward excessive rationality and idealism. These insights highlight a promising direction for future research on the humanization of LLMs. The dataset, benchmark, and code are available at https://aka.ms/motivebench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソーシャルシミュレーションやAIコンパニオンなど、さまざまなシナリオにおけるエージェントフレームワークのコアとして広く採用されている。
しかし、人間のようなモチベーションを再現できる範囲は、まだ未解決の課題である。
既存のベンチマークは、単純化されたシナリオとキャラクタのアイデンティティの欠如によって制約され、結果として現実世界の状況と情報非対称性が生じる。
このギャップに対処するために,200のリッチなコンテキストシナリオと600の推論タスクからなるMotiveBenchを提案する。
MotiveBenchを用いて、7つの人気のあるモデルファミリーについて広範囲にわたる実験を行い、各ファミリーのスケールとバージョンを比較した。
その結果、最も先進的なLSMでさえ、人間のような動機づけを達成できないことが明らかとなった。
分析の結果、LLMが「愛と所有」のモチベーションと過度の合理性や理想主義への傾向を推論する上で困難であることが明らかとなった。
これらの知見は,LLMの人間化に関する今後の研究に期待できる方向を示すものである。
データセット、ベンチマーク、コードはhttps://aka.ms/motivebench.orgで公開されている。
関連論文リスト
- Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans [9.315735862658244]
マルチモーダル推論と人的パフォーマンスのアライメントのためのベンチマークであるHuman-Aligned Benchを提案する。
両言語(中国語と英語)の多モーダル質問や純粋テキストベースの質問など、文脈的推論のみに依存する9,794の多モーダル質問を収集した。
マルチモーダル推論におけるMLLMの性能と人為的性能との間には顕著な違いがある。
論文 参考訳(メタデータ) (2025-05-16T11:41:19Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - PHAnToM: Persona-based Prompting Has An Effect on Theory-of-Mind Reasoning in Large Language Models [25.657579792829743]
我々は,ロールプレイングの促進が理論・オブ・ミンド(ToM)推論能力にどのように影響するかを実証的に評価した。
本稿では、推論タスクの複雑さの固有のばらつきを超えて、社会的に動機づけられた相違が原因で、パフォーマンスの違いが発生するメカニズムを提案する。
論文 参考訳(メタデータ) (2024-03-04T17:34:34Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。