Fugu-MT 論文翻訳(概要): A Notion of Complexity for Theory of Mind via Discrete World Models

論文の概要: A Notion of Complexity for Theory of Mind via Discrete World Models

arxiv url: http://arxiv.org/abs/2406.11911v2
Date: Thu, 1 Aug 2024 15:44:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-02 13:55:00.758355
Title: A Notion of Complexity for Theory of Mind via Discrete World Models
Title（参考訳）: 離散世界モデルによる心の理論の複雑さの記入
Authors: X. Angelo Huang, Emanuele La Malfa, Samuele Marro, Andrea Asperti, Anthony Cohn, Michael Wooldridge,
Abstract要約: ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。
参考スコア（独自算出の注目度）: 2.487142846438629
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Theory of Mind (ToM) can be used to assess the capabilities of Large Language Models (LLMs) in complex scenarios where social reasoning is required. While the research community has proposed many ToM benchmarks, their hardness varies greatly, and their complexity is not well defined. This work proposes a framework to measure the complexity of ToM tasks. We quantify a problem's complexity as the number of states necessary to solve it correctly. Our complexity measure also accounts for spurious states of a ToM problem designed to make it apparently harder. We use our method to assess the complexity of five widely adopted ToM benchmarks. On top of this framework, we design a prompting technique that augments the information available to a model with a description of how the environment changes with the agents' interactions. We name this technique Discrete World Models (DWM) and show how it elicits superior performance on ToM tasks.
Abstract（参考訳）: ToM(Theory of Mind)は、社会的推論が必要な複雑なシナリオにおいて、LLM(Large Language Models)の機能を評価するために用いられる。研究コミュニティは多くのToMベンチマークを提案しているが、その硬さは大きく異なり、その複雑さは明確に定義されていない。本稿では,ToMタスクの複雑さを計測するフレームワークを提案する。我々は問題の複雑性を、それを正しく解くために必要な状態の数として定量化する。当社の複雑性測定基準は、ToM問題を明らかに困難にするために設計された突発的な状態も説明しています。提案手法を用いて,広く採用されている5つのToMベンチマークの複雑さを評価する。このフレームワークの上に、エージェントのインタラクションによって環境がどのように変化するかを記述することで、モデルに利用可能な情報を強化するプロンプト手法を設計する。本稿では,この手法をDWM(Disdisrete World Models)と命名し,ToMタスクにおける優れたパフォーマンスを示す。

関連論文リスト

MMhops-R1: Multimodal Multi-hop Reasoning [89.68086555694084]
マルチモーダルマルチホップ推論の評価と育成を目的とした新しいベンチマークであるMMhopを紹介した。 MMhopsデータセットは、ブリッジと比較という2つの困難なタスクフォーマットで構成されている。動的推論のための新しいマルチモーダル検索拡張フレームワークMMhops-R1を提案する。
論文参考訳（メタデータ） (2025-12-15T17:29:02Z)
Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。 CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文参考訳（メタデータ） (2025-06-03T09:11:15Z)
Overcoming Multi-step Complexity in Multimodal Theory-of-Mind Reasoning: A Scalable Bayesian Planner [32.33827730707331]
本稿では,ToM推論を段階的にベイズ更新に分解するスケーラブルなベイズToMプランナを提案する。提案フレームワークでは,より小さな言語モデルでToM固有の推定を専門に行うことのできる,弱いストロング制御を導入している。提案手法は,マルチモーダルToMベンチマークにおける最先端技術よりも4.6%の精度向上を実現している。
論文参考訳（メタデータ） (2025-06-02T04:23:45Z)
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution [59.39066657300045]
CoT(Chain-of-Thought)は、問題を逐次ステップに分解することで、大きな言語モデル(LLM)の推論を促進する。思考のシジー(Syzygy of Thoughts, SoT)は,CoTを補助的,相互関連的な推論経路を導入して拡張する新しいフレームワークである。 SoTはより深い論理的依存関係をキャプチャし、より堅牢で構造化された問題解決を可能にする。
論文参考訳（メタデータ） (2025-04-13T13:35:41Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文参考訳（メタデータ） (2025-03-14T18:27:02Z)
Multi-LLM Collaborative Search for Complex Problem Solving [54.194370845153784]
そこで我々は,Mixture-of-Search-Agents(MoSA)パラダイムを提案する。 MoSAは、独立した探索とLCM間の反復的精錬を組み合わせることで、様々な推論経路を統合する。モンテカルロ木探索(MCTS)をバックボーンとして使用することにより、複数のエージェントが推論ステップを提案して集約することが可能となり、精度が向上する。
論文参考訳（メタデータ） (2025-02-26T06:31:04Z)
ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。 ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T06:44:49Z)
Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文参考訳（メタデータ） (2025-01-15T18:44:01Z)
MTMT: Consolidating Multiple Thinking Modes to Form a Thought Tree for Strengthening LLM [15.687878949848182]
大規模言語モデル(LLM)は、複雑な論理的推論と多段階の問題解決を必要とするタスクの制限を示している。 MTMT(Multi-thinking Modes Tree)は,LLMと対話して思考木を構築する手法である。 GPT-4o miniをベースモデルとして,パラメータ設定の違いによるMTMTの性能評価を行った。
論文参考訳（メタデータ） (2024-12-05T09:05:30Z)
Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文参考訳（メタデータ） (2024-10-18T06:25:27Z)
Quantifying Generalization Complexity for Large Language Models [31.721781613271066]
大規模言語モデルの一般化能力を定量的に測定する動的評価フレームワークであるScyllaを紹介する。 Scyllaは、イン・ディストリビューション(ID)データとアウト・オブ・ディストリビューション(OOD)データの両方でモデル性能を評価することによって、メモリ化から一般化を遠ざける。 LLaMAやQwenファミリといったオープンソースモデルと、ClaudeやGPTといったクローズソースモデルの両方を含む28LLMをベンチマークします。
論文参考訳（メタデータ） (2024-10-02T17:25:37Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Limits of Deep Learning: Sequence Modeling through the Lens of Complexity Theory [15.24542569393982]
彼らの成功にもかかわらず、ディープラーニングモデルは複雑な推論と機能構成を必要とするタスクに苦しむ。本研究では,SSM(Structured State Space Models)とTransformer(Transformer)の制約に関する理論的および実証的研究を行う。信頼性の高い多段階推論と構成課題解決を実現するための革新的なソリューションの必要性を強調した。
論文参考訳（メタデータ） (2024-05-26T19:33:23Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)
Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文参考訳（メタデータ） (2023-05-29T23:24:14Z)
Faithful Question Answering with Monte-Carlo Planning [78.02429369951363]
本稿では,FAME(Fithful Questioning with Monte-carlo planning)を提案する。我々は,タスクを離散的な意思決定問題として定式化し,推論環境とコントローラの相互作用によって解決する。 FAMEは標準ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-05-04T05:21:36Z)
Model-agnostic Measure of Generalization Difficulty [7.183430740278161]
そこで本研究では,タスク固有の一般化難易度について,モデルに依存しない最初の尺度を提案する。本手法は,データから得られる情報を除くタスクの一般化に必要な総情報の定量化を行う。これは、モデルが一般化しなければならない空間の本質的な次元と指数関数的にスケールするが、次元ごとの分解では直感的にしかできない。
論文参考訳（メタデータ） (2023-05-01T18:48:55Z)
SMT-based Weighted Model Integration with Structure Awareness [18.615397594541665]
本研究では,SMTに基づく列挙法と問題構造を効果的に符号化するアルゴリズムを開発した。これにより,冗長モデルの生成を回避し,計算コストを大幅に削減できる。
論文参考訳（メタデータ） (2022-06-28T09:46:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。