論文の概要: Language Models Might Not Understand You: Evaluating Theory of Mind via Story Prompting
- arxiv url: http://arxiv.org/abs/2506.19089v1
- Date: Mon, 23 Jun 2025 20:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.371907
- Title: Language Models Might Not Understand You: Evaluating Theory of Mind via Story Prompting
- Title(参考訳): 言語モデルはあなたを理解できない:ストーリー・プロンプティングによる心の理論の評価
- Authors: Nathaniel Getachew, Abulhair Saparov,
- Abstract要約: $textttStorySim$は、ストーリーを合成的に生成するためのプログラム可能なフレームワークである。
これは、非常に制御可能な$textttStoryboard$でアンカーされる、新規で構成的なストーリープロンプトを生成する。
われわれのフレームワークは、記事の以前の出来事に対する信頼度と傾向バイアスの証拠を見つけるのに役立った。
- 参考スコア(独自算出の注目度): 4.373803477995854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce $\texttt{StorySim}$, a programmable framework for synthetically generating stories to evaluate the theory of mind (ToM) and world modeling (WM) capabilities of large language models (LLMs). Unlike prior benchmarks that may suffer from contamination in pretraining data, $\texttt{StorySim}$ produces novel, compositional story prompts anchored by a highly controllable $\texttt{Storyboard}$, enabling precise manipulation of character perspectives and events. We use this framework to design first- and second-order ToM tasks alongside WM tasks that control for the ability to track and model mental states. Our experiments across a suite of state-of-the-art LLMs reveal that most models perform better on WM tasks than ToM tasks, and that models tend to perform better reasoning with humans compared to inanimate objects. Additionally, our framework enabled us to find evidence of heuristic behavior such as recency bias and an over-reliance on earlier events in the story. All code for generating data and evaluations is freely available.
- Abstract(参考訳): 我々は,大言語モデル(LLM)の心の理論(ToM)と世界モデリング(WM)能力を評価するために,ストーリを合成的に生成するプログラム可能なフレームワークである$\texttt{StorySim}$を紹介した。
事前トレーニングデータの汚染に悩まされる可能性のある以前のベンチマークとは異なり、$\texttt{StorySim}$は、高度に制御可能な$\texttt{Storyboard}$で固定された、新規で構成的なストーリープロンプトを生成する。
我々は、このフレームワークを使用して、メンタル状態を追跡し、モデル化する能力を制御するWMタスクと並行して、第1および第2のToMタスクを設計します。
我々の実験は、最先端のLCMを用いて、ほとんどのモデルがToMタスクよりもWMタスクで、そしてモデルが無生物のオブジェクトよりも人間の方が、より良い推論を行う傾向があることを明らかにした。
さらに、私たちのフレームワークは、ストーリーの初期の出来事に対する信頼度などのヒューリスティックな振舞いの証拠を見つけるのに役立ちました。
データ生成と評価のためのコードはすべて無償で利用可能だ。
関連論文リスト
- Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。