Fugu-MT 論文翻訳(概要): Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground

論文の概要: Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground

arxiv url: http://arxiv.org/abs/2403.02451v2
Date: Thu, 6 Jun 2024 00:30:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-07 21:02:35.706182
Title: Views Are My Own, but Also Yours: Benchmarking Theory of Mind Using Common Ground
Title（参考訳）: ビューは私自身のものだが、あなた自身のものでもある: 共通グラウンドを用いた心のベンチマーク理論
Authors: Adil Soubki, John Murzaku, Arash Yousefi Jordehi, Peter Zeng, Magdalena Markowska, Seyed Abolghasem Mirroshandel, Owen Rambow,
Abstract要約: 自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを導入し,LMがToMの実証に苦慮していることを示す。次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。
参考スコア（独自算出の注目度）: 6.868969074841911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the theory of mind (ToM) capabilities of language models (LMs) has recently received a great deal of attention. However, many existing benchmarks rely on synthetic data, which risks misaligning the resulting experiments with human behavior. We introduce the first ToM dataset based on naturally occurring spoken dialogs, Common-ToM, and show that LMs struggle to demonstrate ToM. We then show that integrating a simple, explicit representation of beliefs improves LM performance on Common-ToM.
Abstract（参考訳）: 近年,言語モデル(LM)の心の理論(ToM)能力の評価が盛んに行われている。しかし、既存のベンチマークの多くは人工的なデータに依存しており、結果として生じる実験と人間の行動を誤認するリスクがある。自然発生音声対話に基づく最初のToMデータセットであるCommon-ToMを導入し,LMがToMの実証に苦慮していることを示す。次に,信念の単純で明示的な表現を統合することで,Common-ToM上でのLM性能が向上することを示す。

関連論文リスト

Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。 GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文参考訳（メタデータ） (2025-03-17T04:07:47Z)
Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文参考訳（メタデータ） (2024-07-08T14:58:29Z)
ToM-LM: Delegating Theory of Mind Reasoning to External Symbolic Executors in Large Language Models [5.455744338342196]
心の理論(りょうせい、英: Theory of Mind、ToM)とは、個人が心の状態を他人に当てはめる能力のこと。大きな言語モデル(LLM)は、ToMの能力といくつかの約束を示しているが、それでも複雑なToM推論に苦戦している。
論文参考訳（メタデータ） (2024-04-23T20:59:03Z)
NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding [55.38254464415964]
現在、マインド評価の理論は、機械生成データやゲーム設定を用いたテストモデルに焦点を合わせており、ショートカットや素早い相関が生じる傾向にある。我々は,多次元精神状態を取り巻く実世界の交渉において,ストレステストマシンToMのための新しいベンチマークであるNegotiationToMを紹介する。
論文参考訳（メタデータ） (2024-04-21T11:51:13Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
MMToM-QA: Multimodal Theory of Mind Question Answering [80.87550820953236]
心の理論 (ToM) は人間レベルの社会知能を持つ機械を開発する上で不可欠な要素である。最近の機械学習モデル、特に大きな言語モデルは、ToM理解のいくつかの側面を示しているようだ。一方、ヒューマンToMはビデオやテキストの理解以上のものです。人は、利用可能なデータから抽出された概念的表現に基づいて、他人の心について柔軟に推論することができる。
論文参考訳（メタデータ） (2024-01-16T18:59:24Z)
InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文参考訳（メタデータ） (2023-11-20T07:06:31Z)
Theory of Mind in Large Language Models: Examining Performance of 11 State-of-the-Art models vs. Children Aged 7-10 on Advanced Tests [1.099532646524593]
我々は、心の理論(ToM)に関連する能力に基づいて、11のベースおよび命令調整型大言語モデル(LLM)をテストする。また, GPT ファミリーの命令調整 LLM は, 他のモデルよりも優れており,子供もよく見られる。我々は,言語とToMの相互接続進化と開発が,命令チューニングがもたらす意味を説明するのに役立つことを示唆している。
論文参考訳（メタデータ） (2023-10-31T09:55:07Z)
FANToM: A Benchmark for Stress-testing Machine Theory of Mind in Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文参考訳（メタデータ） (2023-10-24T00:24:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。