論文の概要: Few-Shot Character Understanding in Movies as an Assessment to
Meta-Learning of Theory-of-Mind
- arxiv url: http://arxiv.org/abs/2211.04684v2
- Date: Fri, 2 Feb 2024 22:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:18:02.139832
- Title: Few-Shot Character Understanding in Movies as an Assessment to
Meta-Learning of Theory-of-Mind
- Title(参考訳): 映画におけるマイノリティ理解 : 思考理論のメタラーニングと評価
- Authors: Mo Yu, Qiujing Wang, Shunchi Zhang, Yisi Sang, Kangsheng Pu, Zekai
Wei, Han Wang, Liyan Xu, Jing Li, Yue Yu, Jie Zhou
- Abstract要約: 人間は、いくつかの観察によって、新しい架空のキャラクターを素早く理解することができる。
これは、人間のキャラクターの精神状態、すなわち理論・オブ・ミンド(ToM)の推論における、数少ないショットとメタラーニングの本質を反映している。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
- 参考スコア(独自算出の注目度): 47.13015852330866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When reading a story, humans can quickly understand new fictional characters
with a few observations, mainly by drawing analogies to fictional and real
people they already know. This reflects the few-shot and meta-learning essence
of humans' inference of characters' mental states, i.e., theory-of-mind (ToM),
which is largely ignored in existing research. We fill this gap with a novel
NLP dataset, ToM-in-AMC, the first assessment of machines' meta-learning of ToM
in a realistic narrative understanding scenario. Our dataset consists of ~1,000
parsed movie scripts, each corresponding to a few-shot character understanding
task that requires models to mimic humans' ability of fast digesting characters
with a few starting scenes in a new movie.
We propose a novel ToM prompting approach designed to explicitly assess the
influence of multiple ToM dimensions. It surpasses existing baseline models,
underscoring the significance of modeling multiple ToM dimensions for our task.
Our extensive human study verifies that humans are capable of solving our
problem by inferring characters' mental states based on their previously seen
movies. In comparison, our systems based on either state-of-the-art large
language models (GPT-4) or meta-learning algorithms lags >20% behind,
highlighting a notable limitation in existing approaches' ToM capabilities.
- Abstract(参考訳): 物語を読むとき、人間はいくつかの観察で新しい架空のキャラクターを素早く理解することができる。
これは、人間によるキャラクターの精神状態の推論、すなわち精神の理論(tom)のごく少数とメタラーニングの本質を反映しており、既存の研究では無視されている。
このギャップを新しいNLPデータセットであるToM-in-AMCで埋め、現実的な物語理解シナリオにおける機械によるToMのメタラーニングを初めて評価する。
私たちのデータセットは、1,000近い解析された映画スクリプトで構成されており、それぞれが、新しい映画で数シーンの開始シーンで、人間の迅速な消化能力を模倣するモデルを必要とする、少数のキャラクタ理解タスクに対応しています。
複数のToM次元の影響を明示的に評価する新しいToMプロンプト手法を提案する。
既存のベースラインモデルを超え、タスクのために複数のToM次元をモデリングすることの重要性を強調します。
我々の広範な人間研究は、以前見た映画に基づいてキャラクターの精神状態を推測することで、人間が我々の問題を解決することができることを検証している。
比較として,最先端の大規模言語モデル (GPT-4) とメタラーニングアルゴリズム (メタラーニングアルゴリズム) が20%以上遅れており,既存のアプローチのToM能力を著しく制限している。
関連論文リスト
- Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z) - OpenToM: A Comprehensive Benchmark for Evaluating Theory-of-Mind Reasoning Capabilities of Large Language Models [17.042114879350788]
N-ToM(Neural Theory-of-Mind)は、他者の精神状態を理解し、追跡する能力を持つ機械である。
OpenToMは、より長く明確な物語、明示的な性格特性、キャラクタの意図によって引き起こされる行動でN-ToMを評価するための新しいベンチマークである。
身体世界における精神状態の特定の側面をモデル化する上では最先端のLSMが活躍するが、心理学世界におけるキャラクターの精神状態を追跡する際には不足することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T20:35:06Z) - MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。
最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。
一方、ヒューマンToMはビデオやテキストの理解以上のものです。
人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文 参考訳(メタデータ) (2024-01-16T18:59:24Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - Towards A Holistic Landscape of Situated Theory of Mind in Large
Language Models [14.491223187047378]
大言語モデル(LLM)は、心の理論(ToM)の出現の可能性について、かなりの関心と議論を巻き起こしている。
最近のいくつかの調査では、これらのモデルに堅牢なToMが欠如していることが判明し、新しいベンチマークの開発に対する需要が高まっている。
マシンToMを7つのメンタルステートカテゴリに分類し、既存のベンチマークをデライン化して、探索されていないToMの側面を特定します。
論文 参考訳(メタデータ) (2023-10-30T15:12:09Z) - TVShowGuess: Character Comprehension in Stories as Speaker Guessing [23.21452223968301]
物語における架空のキャラクターを理解するための機械のスキルを評価するための新しいタスクを提案する。
タスクであるTVShowGuessは、TVシリーズのスクリプトをベースとして、シーンの背景や対話に基づいて匿名のメインキャラクターを推測する形式をとっている。
我々の人間による研究は、キャラクターの個性、事実、個性体験の記憶など、複数の種類の人格の理解をカバーしている。
論文 参考訳(メタデータ) (2022-04-16T05:15:04Z) - Affect2MM: Affective Analysis of Multimedia Content Using Emotion
Causality [84.69595956853908]
本稿では,マルチメディアコンテンツを対象とした時系列感情予測学習手法であるAffect2MMを提案する。
私たちの目標は、現実の人間中心の状況や行動でキャラクターが描く様々な感情を自動的に捉えることです。
論文 参考訳(メタデータ) (2021-03-11T09:07:25Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。