論文の概要: Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective
- arxiv url: http://arxiv.org/abs/2504.10839v1
- Date: Tue, 15 Apr 2025 03:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:07:02.611982
- Title: Rethinking Theory of Mind Benchmarks for LLMs: Towards A User-Centered Perspective
- Title(参考訳): LLMのためのマインドベンチマーク理論の再考:ユーザ中心の視点に向けて
- Authors: Qiaosi Wang, Xuhui Zhou, Maarten Sap, Jodi Forlizzi, Hong Shen,
- Abstract要約: Theory-of-Mind (ToM) タスクは、人間がLMのToM能力をベンチマークするために設計されている。
このアプローチにはいくつかの制限があります。
ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考するきっかけとなる。
- 参考スコア(独自算出の注目度): 24.27038998164743
- License:
- Abstract: The last couple of years have witnessed emerging research that appropriates Theory-of-Mind (ToM) tasks designed for humans to benchmark LLM's ToM capabilities as an indication of LLM's social intelligence. However, this approach has a number of limitations. Drawing on existing psychology and AI literature, we summarize the theoretical, methodological, and evaluation limitations by pointing out that certain issues are inherently present in the original ToM tasks used to evaluate human's ToM, which continues to persist and exacerbated when appropriated to benchmark LLM's ToM. Taking a human-computer interaction (HCI) perspective, these limitations prompt us to rethink the definition and criteria of ToM in ToM benchmarks in a more dynamic, interactional approach that accounts for user preferences, needs, and experiences with LLMs in such evaluations. We conclude by outlining potential opportunities and challenges towards this direction.
- Abstract(参考訳): ここ数年、LLMのソーシャルインテリジェンスを示す指標として、LLMのToM能力をベンチマークするために人間用に設計された理論・オブ・ミンド(ToM)タスクを適合させる新たな研究を目撃してきた。
しかし、このアプローチにはいくつかの制限がある。
既存の心理学とAI文献に基づいて、LLMのToMをベンチマークする際、継続して悪化し続けている人間のToMを評価するために使用されるオリジナルのToMタスクに、特定の問題が本質的に存在することを指摘し、理論的、方法論的、評価上の限界を要約する。
ヒューマン・コンピュータ・インタラクション(HCI)の観点から、これらの制限はToMベンチマークにおけるToMの定義と基準を再考することを促す。
我々は、この方向に向けた潜在的な機会と課題を概説して結論付けます。
関連論文リスト
- A Systematic Review on the Evaluation of Large Language Models in Theory of Mind Tasks [0.0]
本稿では,大規模言語モデル(LLM)のToMタスク実行能力を評価するための現在の取り組みを整理する。
文学における繰り返しのテーマは、LLMがToMタスクにおける能力の増大を示す一方で、人間の認知能力のエミュレーションにおいて大きなギャップが持続していることを示している。
論文 参考訳(メタデータ) (2025-02-12T21:19:30Z) - Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning [13.545981051703682]
LLMにおける心の理論(ToM)は近年,研究の中心的対象となっている。
LLMベンチマーク、ToMアドオン、ToM Probing、ToMの公式モデルなど、AIのさまざまなコミュニティにおけるいくつかの作業行を特定します。
認知タスクに使用される動的環境にインスパイアされたToM能力の評価を改善することを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:06:48Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。