論文の概要: A Notion of Complexity for Theory of Mind via Discrete World Models
- arxiv url: http://arxiv.org/abs/2406.11911v3
- Date: Wed, 09 Oct 2024 06:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:32.230309
- Title: A Notion of Complexity for Theory of Mind via Discrete World Models
- Title(参考訳): 離散世界モデルによる心の理論の複雑さの記入
- Authors: X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge,
- Abstract要約: ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。
本研究では,ToMタスクの複雑さを測定するための認知負荷理論に着想を得たフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.487142846438629
- License:
- Abstract: Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework inspired by cognitive load theory to measure the complexity of ToM tasks. We quantify a problem's complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents' interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.
- Abstract(参考訳): ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。
研究コミュニティは多くのToMベンチマークを提案しているが、その硬さは大きく異なり、その複雑さは明確に定義されていない。
本研究では,ToMタスクの複雑さを測定するための認知負荷理論に着想を得たフレームワークを提案する。
我々は問題の複雑性を、それを正しく解くために必要な状態の数として定量化する。
当社の複雑性測定基準は、ToM問題を明らかに困難にするために設計された突発的な状態も説明しています。
提案手法を用いて,広く採用されている5つのToMベンチマークの複雑さを評価する。
このフレームワークの上に、エージェントのインタラクションによって環境がどのように変化するかを記述することで、モデルに利用可能な情報を強化するプロンプト手法を設計する。
本稿では,この手法をDWM(Disdisrete World Models)と命名し,ToMタスクにおける優れたパフォーマンスを示す。
関連論文リスト
- Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Quantifying Generalization Complexity for Large Language Models [31.721781613271066]
大規模言語モデルの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。
Scyllaは、イン・ディストリビューション(ID)データとアウト・オブ・ディストリビューション(OOD)データの両方でモデル性能を評価することによって、メモリ化から一般化を遠ざける。
LLaMAやQwenファミリといったオープンソースモデルと、ClaudeやGPTといったクローズソースモデルの両方を含む28LLMをベンチマークします。
論文 参考訳(メタデータ) (2024-10-02T17:25:37Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。
本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。
信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文 参考訳(メタデータ) (2024-05-26T19:33:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。
我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。
FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-04T05:21:36Z) - Model-agnostic Measure of Generalization Difficulty [7.183430740278161]
そこで本研究では,タスク固有の一般化難易度について,モデルに依存しない最初の尺度を提案する。
本手法は,データから得られる情報を除くタスクの一般化に必要な総情報の定量化を行う。
これは、モデルが一般化しなければならない空間の本質的な次元と指数関数的にスケールするが、次元ごとの分解では直感的にしかできない。
論文 参考訳(メタデータ) (2023-05-01T18:48:55Z) - SMT-based Weighted Model Integration with Structure Awareness [18.615397594541665]
本研究では,SMTに基づく列挙法と問題構造を効果的に符号化するアルゴリズムを開発した。
これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。
論文 参考訳(メタデータ) (2022-06-28T09:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。