論文の概要: DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
- arxiv url: http://arxiv.org/abs/2505.17348v1
- Date: Thu, 22 May 2025 23:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.736538
- Title: DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
- Title(参考訳): DEL-ToM:動的てんかん論理によるMind-of-Mind推論の推論時間スケーリング
- Authors: Yuheng Wu, Jianwen Xie, Denghui Zhang, Zhaozhuo Xu,
- Abstract要約: ToM(Theory-of-Mind)タスクは、小規模言語モデル(SLM)において、限られたスケールで独自の課題を提起する。
推論時間スケーリングによるToM推論を改善するフレームワークであるDEL-ToMを提案する。
- 参考スコア(独自算出の注目度): 28.54147281933252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory-of-Mind (ToM) tasks pose a unique challenge for small language models (SLMs) with limited scale, which often lack the capacity to perform deep social reasoning. In this work, we propose DEL-ToM, a framework that improves ToM reasoning through inference-time scaling rather than architectural changes. Our approach decomposes ToM tasks into a sequence of belief updates grounded in Dynamic Epistemic Logic (DEL), enabling structured and transparent reasoning. We train a verifier, called the Process Belief Model (PBM), to score each belief update step using labels generated automatically via a DEL simulator. During inference, candidate belief traces generated by a language model are evaluated by the PBM, and the highest-scoring trace is selected. This allows SLMs to emulate more deliberate reasoning by allocating additional compute at test time. Experiments across multiple model scales and benchmarks show that DEL-ToM consistently improves performance, demonstrating that verifiable belief supervision can significantly enhance ToM abilities of SLMs without retraining.
- Abstract(参考訳): 理論・オブ・ミンド(ToM)のタスクは、小さな言語モデル(SLM)に限られた規模で固有の課題をもたらすが、しばしば深い社会的推論を行う能力に欠ける。
本研究では,アーキテクチャ変更ではなく,推論時間スケーリングによるToM推論を改善するフレームワークであるDEL-ToMを提案する。
提案手法では,ToMタスクを動的疫学論理(DEL)に基づく一連の信念更新に分解し,構造化および透明な推論を可能にする。
そこで我々は,DELシミュレータを用いて自動生成したラベルを用いて,プロセス信念モデル(PBM, Process Belief Model)と呼ばれる検証器を訓練する。
推論中、言語モデルによって生成された候補信念トレースをPBMで評価し、最高スコアトレースを選択する。
これにより、SLMはテスト時にさらなる計算を割り当てることで、より意図的な推論をエミュレートできる。
複数のモデルスケールとベンチマーク実験により、DEL-ToMは一貫して性能を向上し、検証された信念の監督は再訓練なしにSLMのToM能力を著しく向上させることができることを示した。
関連論文リスト
- Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。