論文の概要: DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
- arxiv url: http://arxiv.org/abs/2505.17348v1
- Date: Thu, 22 May 2025 23:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.736538
- Title: DEL-ToM: Inference-Time Scaling for Theory-of-Mind Reasoning via Dynamic Epistemic Logic
- Title(参考訳): DEL-ToM:動的てんかん論理によるMind-of-Mind推論の推論時間スケーリング
- Authors: Yuheng Wu, Jianwen Xie, Denghui Zhang, Zhaozhuo Xu,
- Abstract要約: ToM(Theory-of-Mind)タスクは、小規模言語モデル(SLM)において、限られたスケールで独自の課題を提起する。
推論時間スケーリングによるToM推論を改善するフレームワークであるDEL-ToMを提案する。
- 参考スコア(独自算出の注目度): 28.54147281933252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Theory-of-Mind (ToM) tasks pose a unique challenge for small language models (SLMs) with limited scale, which often lack the capacity to perform deep social reasoning. In this work, we propose DEL-ToM, a framework that improves ToM reasoning through inference-time scaling rather than architectural changes. Our approach decomposes ToM tasks into a sequence of belief updates grounded in Dynamic Epistemic Logic (DEL), enabling structured and transparent reasoning. We train a verifier, called the Process Belief Model (PBM), to score each belief update step using labels generated automatically via a DEL simulator. During inference, candidate belief traces generated by a language model are evaluated by the PBM, and the highest-scoring trace is selected. This allows SLMs to emulate more deliberate reasoning by allocating additional compute at test time. Experiments across multiple model scales and benchmarks show that DEL-ToM consistently improves performance, demonstrating that verifiable belief supervision can significantly enhance ToM abilities of SLMs without retraining.
- Abstract(参考訳): 理論・オブ・ミンド(ToM)のタスクは、小さな言語モデル(SLM)に限られた規模で固有の課題をもたらすが、しばしば深い社会的推論を行う能力に欠ける。
本研究では,アーキテクチャ変更ではなく,推論時間スケーリングによるToM推論を改善するフレームワークであるDEL-ToMを提案する。
提案手法では,ToMタスクを動的疫学論理(DEL)に基づく一連の信念更新に分解し,構造化および透明な推論を可能にする。
そこで我々は,DELシミュレータを用いて自動生成したラベルを用いて,プロセス信念モデル(PBM, Process Belief Model)と呼ばれる検証器を訓練する。
推論中、言語モデルによって生成された候補信念トレースをPBMで評価し、最高スコアトレースを選択する。
これにより、SLMはテスト時にさらなる計算を割り当てることで、より意図的な推論をエミュレートできる。
複数のモデルスケールとベンチマーク実験により、DEL-ToMは一貫して性能を向上し、検証された信念の監督は再訓練なしにSLMのToM能力を著しく向上させることができることを示した。
関連論文リスト
- Beyond Templates: Dynamic Adaptation of Reasoning Demonstrations via Feasibility-Aware Exploration [15.711365331854614]
本稿では,新しいデータ適応フレームワークである動的推論軌道(DART)について紹介する。
専門家のステップを均一に模倣する代わりに、DARTはステップワイド適応性推定によって導かれる選択的な模倣戦略を採用している。
我々は、DARTを複数の推論ベンチマークとモデルスケールで検証し、一般化とデータ効率を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-05-27T04:08:11Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Do Theory of Mind Benchmarks Need Explicit Human-like Reasoning in Language Models? [14.29992535286614]
心の理論 (Theory of Mind, ToM) とは、心の状態を他人に説明できる能力である。
大規模言語モデルの最近の進歩は、ToMベンチマークで有望なパフォーマンスを示している。
これらのベンチマークは、明示的なヒューマンライクな推論プロセスを必要とするのか、それとも、代替戦略によってモデルが成功するのか?
論文 参考訳(メタデータ) (2025-04-02T12:58:42Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Decompose-ToM: Enhancing Theory of Mind Reasoning in Large Language Models through Simulation and Task Decomposition [2.089191490381739]
心の理論 (Theory of Mind, ToM) は、他者の精神状態を理解し、反映する能力である。
大規模言語モデル(LLM)は、ToMの初歩的な理解しか持たない。
本稿では,複雑なToMタスクにおけるモデル性能を改善するLLMベースの推論アルゴリズムであるDecompose-ToM'を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:44:01Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。