論文の概要: ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks
for Exploring Theory of Mind
- arxiv url: http://arxiv.org/abs/2305.15068v2
- Date: Mon, 23 Oct 2023 22:16:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:34:07.053106
- Title: ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks
for Exploring Theory of Mind
- Title(参考訳): ToMChallenges: 心の理論を探求するための原則ガイド型データセットと多変量評価タスク
- Authors: Xiaomeng Ma, Lingyu Gao, Qihui Xu
- Abstract要約: ToMChallengesは,Sally-Anne と Smarties のテストに基づいて,多種多様なタスクを用いて,心の理論を総合的に評価するためのデータセットである。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
- 参考スコア(独自算出の注目度): 4.450536872346658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the capacity to comprehend the mental states of
distinct individuals, is essential for numerous practical applications. With
the development of large language models (LLMs), there is a heated debate about
whether they are able to perform ToM tasks. Previous studies have used
different tasks and prompts to test the ToM on LLMs and the results are
inconsistent: some studies asserted these models are capable of exhibiting ToM,
while others suggest the opposite. In this study, We present ToMChallenges, a
dataset for comprehensively evaluating the Theory of Mind based on the
Sally-Anne and Smarties tests with a diverse set of tasks. In addition, we also
propose an auto-grader to streamline the answer evaluation process. We tested
three models: davinci, turbo, and gpt-4. Our evaluation results and error
analyses show that LLMs have inconsistent behaviors across prompts and tasks.
Performing the ToM tasks robustly remains a challenge for the LLMs. In
addition, our paper wants to raise awareness in evaluating the ToM in LLMs and
we want to invite more discussion on how to design the prompts and tasks for
ToM tasks that can better assess the LLMs' ability.
- Abstract(参考訳): 異なる個人の精神状態を理解する能力である心の理論(ToM)は、多くの実践的応用に不可欠である。
大規模言語モデル (LLM) の開発により,ToM のタスクの実行が可能であるかどうかが議論されている。
従来の研究では、異なるタスクと、LSM上でToMをテストするためのプロンプトが用いられており、結果は矛盾している。
本研究では,Sally-Anne and Smarties テストに基づく精神理論を多種多様なタスクで総合的に評価するためのデータセットであるToMChallengesを提案する。
また,回答評価プロセスの合理化を図ったオートグレーダを提案する。
davinci、turbo、gpt-4の3機種をテストした。
評価結果と誤差分析により,LLMはプロンプトやタスク間で不整合な挙動を示す。
ToMタスクの堅牢な実行は、LLMにとって依然として課題である。
さらに,本論文では,LLMにおけるToM評価の意識を高めることを目的としており,LLMの能力を評価するために,ToMタスクのプロンプトやタスクの設計方法について,さらに議論したいと考えている。
関連論文リスト
- Probing the Robustness of Theory of Mind in Large Language Models [6.7932860553262415]
LLMにおけるToM探索のための68タスクの新しいデータセットを提案する。
データセットとデータセットを用いた4つのSotAオープンソースLLMのToM性能の評価(Kosinski, 2023)。
エージェントが環境における自動状態変化の知識を持っているという認識を必要とするタスクにおいて、全てのLLMが不整合性を示す傾向がみられた。
論文 参考訳(メタデータ) (2024-10-08T18:13:27Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [42.80231362967291]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - Theory of Mind in Large Language Models: Examining Performance of 11
State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。
また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。
我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-10-31T09:55:07Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。