論文の概要: eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion
- arxiv url: http://arxiv.org/abs/2606.02054v1
- Date: Mon, 01 Jun 2026 10:41:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.871624
- Title: eMoT: evolving Memory-of-Thought via Symbolic Anchoring and Memory Corrosion
- Title(参考訳): eMoT:シンボリックアンカリングとメモリ腐食による記憶の進化
- Authors: Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang Yang,
- Abstract要約: マルチステップ推論を安定化する統合フレームワーク eMoT (evolving Memory-of-Thought) を提案する。
eMoTは、(i)高実用性推論構造を補強するメモリ腐食機構、(ii)Pythonを計算機のように決定論的計算に利用するシンボリックアンカーエンジン、(iii)神経推論と記号的結果とを整合させる一貫性駆動の洗練されたプロセスの3つの相互接続モジュールから構成される。
24の伝統的なタスクでは、eMoTは100%の精度を達成し、ベースラインを最大17.6%上回る。
- 参考スコア(独自算出の注目度): 34.722617170864964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) achieve impressive performance on multi-step reasoning tasks, their reliability is persistently hindered by critical limitations such as unconstrained hallucinations and poor numerical computation. Fundamentally, these issues arise because standard models treat reasoning as a transient, one-off generation process rather than retaining and refining successful procedural logic. To address these challenges, we propose eMoT (evolving Memory-of-Thought), a unified framework that stabilizes multi-step reasoning by treating reasoning trajectories as dynamic, evolving memories rather than static templates. The framework primarily consists of three interconnected modules: (i) a memory corrosion mechanism that reinforces high-utility reasoning structures while gradually decaying less frequent ones; (ii) a symbolic anchoring engine that utilizes Python for deterministic computation, much like a human uses a calculator; and (iii) a consistency-driven refinement process that aligns neural inference with symbolic outcomes, reducing the accumulation of logical discrepancies. Across multiple reasoning benchmarks, eMoT improves accuracy and solution consistency over standard Chain-of-Thought and structured reasoning baselines.On the traditional task Game of 24, eMoT achieves 100% accuracy, surpassing the baseline by up to 17.6%. Evaluations on mathematical task GSM8K, ASDiv, SVAMP, and MGSM further show consistent gains in multi-step mathematical reasoning. In our evaluation, we achieve superior performance despite utilizing a lightweight backbone model with constrained baseline capabilities. Compared to alternative methods that rely on massively scaled models, our results demonstrate that the performance gains are fundamentally driven by the eMoT framework's reasoning control rather than sheer model size.
- Abstract(参考訳): 大規模言語モデル(LLM)は多段階推論タスクにおいて顕著な性能を発揮するが、その信頼性は、制約のない幻覚や数値計算の貧弱といった致命的な制限によって持続的に妨げられる。
基本的に、これらの問題は、標準モデルが推論を手続き論理を成功させ、精製するのではなく、過渡的で一対一な生成プロセスとして扱うためである。
これらの課題に対処するために、静的テンプレートではなく動的に進化するメモリとして、推論トラジェクトリを扱い、多段階推論を安定化する統合フレームワークeMoT(evolving Memory-of-Thought)を提案する。
フレームワークは主に3つの相互接続モジュールで構成されています。
一 高実用性推論構造を強化しつつ、徐々に少ない頻度で劣化させる記憶腐食機構
(ii)Pythonを用いて決定論的計算を行うシンボリックアンカーエンジン。
三 神経推論を象徴的な結果と整合させ、論理的不一致の蓄積を減少させる整合性駆動的精錬法。
複数の推論ベンチマークを通じて、eMoTは標準のChain-of-Thoughtと構造化された推論ベースラインの精度とソリューションの一貫性を改善し、従来のタスクゲーム24では、eMoTは100%の精度を達成し、ベースラインを最大17.6%上回る。
数学タスク GSM8K, ASDiv, SVAMP, MGSM の評価は多段階の数学的推論において一貫した利得を示す。
本評価では,制約付きベースライン機能を持つ軽量バックボーンモデルを使用しながら,優れた性能を実現する。
大規模モデルに依存する代替手法と比較して,本研究の結果は,モデルサイズよりもeMoTフレームワークの推論制御により,性能向上が根本的に促進されることを示した。
関連論文リスト
- Evaluating and Enhancing the Vulnerability Reasoning Capabilities of Large Language Models [15.849480549367684]
本稿では,DAG生成タスクとして脆弱性推論をモデル化する新しいフレームワークであるDAGVulを提案する。
さらにReinforcement Learning with Verifiable Rewards (RLVR)を導入することで、モデル推論トレースをプログラム固有の論理と整合させる。
我々のフレームワークは、すべてのベースラインに対して平均18.9%の推論F1スコアを改善します。
論文 参考訳(メタデータ) (2026-02-06T13:19:45Z) - Reasoning Relay: Evaluating Stability and Interchangeability of Large Language Models in Mathematical Reasoning [8.01259760303241]
部分的に完了した推論連鎖が他のモデルによって確実に継続できるかどうかを検討する。
トークンレベルのログ確率しきい値を使用して、ベースラインモデルから推論を早期、中、後期に切り離します。
我々の研究は、推論モデルの新たな行動特性としてのインターチェンジビリティを示唆している。
論文 参考訳(メタデータ) (2025-12-16T02:56:44Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。