論文の概要: A Notion of Complexity for Theory of Mind via Discrete World Models
- arxiv url: http://arxiv.org/abs/2406.11911v2
- Date: Thu, 1 Aug 2024 15:44:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-02 13:55:00.758355
- Title: A Notion of Complexity for Theory of Mind via Discrete World Models
- Title(参考訳): 離散世界モデルによる心の理論の複雑さの記入
- Authors: X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge,
- Abstract要約: ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。
本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.487142846438629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework to measure the complexity of ToM tasks. We quantify a problem's complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents' interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.
- Abstract(参考訳): ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。
研究コミュニティは多くのToMベンチマークを提案しているが、その硬さは大きく異なり、その複雑さは明確に定義されていない。
本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。
我々は問題の複雑性を、それを正しく解くために必要な状態の数として定量化する。
当社の複雑性測定基準は、ToM問題を明らかに困難にするために設計された突発的な状態も説明しています。
提案手法を用いて,広く採用されている5つのToMベンチマークの複雑さを評価する。
このフレームワークの上に、エージェントのインタラクションによって環境がどのように変化するかを記述することで、モデルに利用可能な情報を強化するプロンプト手法を設計する。
本稿では,この手法をDWM(Disdisrete World Models)と命名し,ToMタスクにおける優れたパフォーマンスを示す。
関連論文リスト
- Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
現在のモデルは、真のマルチステップ推論よりもショートカットに依存しており、タスクの複雑さが増大するにつれてパフォーマンスが低下する。
我々の貢献は、SSMの限界を説明するための複雑性理論に基づく理論的枠組みを提供する。
実験の結果,Chain-of-Thoughtが促進しても,タスクの複雑性が増大するにつれて,大幅なパフォーマンス低下がみられた。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Towards Revealing the Mystery behind Chain of Thought: A Theoretical
Perspective [39.47116013338394]
CoT(Chain-of-Thought prompting)は,大規模言語モデル(LLM)の性能を劇的に向上させる
我々は、CoTが動的プログラミング(Dynamic Programming)として知られる一般的な意思決定問題に対処できることを示します。
論文 参考訳(メタデータ) (2023-05-24T17:59:21Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Model-agnostic Measure of Generalization Difficulty [7.183430740278161]
そこで本研究では,タスク固有の一般化難易度について,モデルに依存しない最初の尺度を提案する。
本手法は,データから得られる情報を除くタスクの一般化に必要な総情報の定量化を行う。
これは、モデルが一般化しなければならない空間の本質的な次元と指数関数的にスケールするが、次元ごとの分解では直感的にしかできない。
論文 参考訳(メタデータ) (2023-05-01T18:48:55Z) - Enhancing SMT-based Weighted Model Integration by Structure Awareness [10.812681884889697]
重み付きモデル統合(WMI)は、ハイブリッドドメインにおける確率的推論の統一形式として登場した。
本研究では,SMTに基づく列挙法と問題構造を効果的に符号化するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-02-13T08:55:12Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - SMT-based Weighted Model Integration with Structure Awareness [18.615397594541665]
本研究では,SMTに基づく列挙法と問題構造を効果的に符号化するアルゴリズムを開発した。
これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。
論文 参考訳(メタデータ) (2022-06-28T09:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。