論文の概要: SalaMAnder: Shapley-based Mathematical Expression Attribution and Metric for Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2509.16561v1
- Date: Sat, 20 Sep 2025 07:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.861155
- Title: SalaMAnder: Shapley-based Mathematical Expression Attribution and Metric for Chain-of-Thought Reasoning
- Title(参考訳): SalaMander:シェープリーに基づく数学的表現の帰属と理論的推論
- Authors: Yue Xin, Chen Shen, Shaotian Yan, Xiaosong Yuan, Yaoming Wang, Xiaofeng Zhang, Chenxi Huang, Jieping Ye,
- Abstract要約: CoT(Chain-of-Thought)により、大きな言語モデル(LLM)の数学推論能力が大きく向上する。
textbfSalaMAnder (textbfShtextbfaptextbfley-btextbfased textbfMathematical Expression textbfAttribution atextbfnd Mtextbfettextbfric) は理論的に根拠付けられた方法論である。
我が家
- 参考スコア(独自算出の注目度): 45.78228118909098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting enhances the math reasoning capability of large language models (LLMs) to a large margin. However, the mechanism underlying such improvements remains unexplored. In this paper, we present \textbf{SalaMAnder} (\textbf{S}h\textbf{a}p\textbf{l}ey-b\textbf{a}sed \textbf{M}athematical Expression \textbf{A}ttribution a\textbf{nd} M\textbf{e}t\textbf{r}ic), a theoretically grounded methodology as well as a mathematically rigorous evaluation metric for quantifying component-level contributions in few-shot CoT reasoning. Concretely, we leverage the Shapley value for mathematical expression attribution and develop an efficient stratified sampling algorithm that significantly reduces the computational complexity. Besides, we develop the \textbf{CoSP} (\textbf{C}ardinality \textbf{o}f \textbf{S}hapley \textbf{P}ositives) metric through covariance analysis. Comprehensive validation across popular LLM models and diverse mathematical benchmarks demonstrates that the CoSP metric within our SalaMAnder framework exhibits a robust monotonic correlation with model performance, not only providing theoretical explanations for the empirical success of existing few-shot CoT but also establishing mathematically rigorous principles for prompt construction optimization. Furthermore, we verify the reliability of the explanation, based on which we unify the insights of previous work.
- Abstract(参考訳): CoT(Chain-of-Thought)により、大きな言語モデル(LLM)の数学推論能力が大きく向上する。
しかし、そのような改善の基盤となるメカニズムは未解明のままである。
本稿では,数ショットのCoT推論における成分レベルの寄与を定量化するための数学的に厳密な評価指標とともに,理論的に基礎付けられた方法論である \textbf{SalaMander} (\textbf{S}h\textbf{a}p\textbf{l}ey-b\textbf{a}sed \textbf{M}athematical Expression \textbf{A}ttribution a\textbf{nd}M\textbf{e}t\textbf{r}ic) を提案する。
具体的には,Shapley値を数学的表現帰属に利用し,計算複雑性を著しく低減する効率的な階層化サンプリングアルゴリズムを開発する。
さらに、共分散解析により、 \textbf{CoSP} (\textbf{C}ardinality \textbf{o}f \textbf{S}hapley \textbf{P}ositives) 計量を開発する。
一般的なLLMモデルと多種多様な数学的ベンチマークによる包括的検証は、我々のSaraManderフレームワーク内のCoSP測定値がモデル性能と頑健なモノトニックな相関を示すことを示した。
さらに,従来の作業の知見を統一する上で,説明の信頼性を検証する。
関連論文リスト
- A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文 参考訳(メタデータ) (2025-06-10T14:47:48Z) - Understanding Chain-of-Thought in LLMs through Information Theory [16.78730663293352]
我々は,情報理論レンズを用いて,大規模言語モデル(LLM)におけるChain-of-Thought(CoT)推論を定式化する。
具体的には、各推論ステップにおける「情報ゲイン」を定量化し、障害モードの識別を可能にする。
我々は,おもちゃの算術, GSM8K, PRM800kデータセットに関する広範な実験を通じて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-11-18T19:14:36Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods [59.779795063072655]
CoT(Chain-of-Thought)の促進とその変種は、多段階推論問題を解決する効果的な方法として人気を集めている。
統計的推定の観点からCoTのプロンプトを解析し,その複雑さを包括的に評価する。
論文 参考訳(メタデータ) (2024-08-25T04:07:18Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Byzantine Machine Learning Made Easy by Resilient Averaging of Momentums [7.778461949427662]
分散機械学習コミュニティでは、ビザンチンレジリエンスが重要なトピックとして浮上した。
本稿では、最適なビザンチンレジリエンスを確立するための統一的なフレームワークであるemphRESAM(Regilient Averaging of Momentums)を提案する。
論文 参考訳(メタデータ) (2022-05-24T16:14:50Z) - Robust Principal Component Analysis: A Median of Means Approach [17.446104539598895]
主成分分析(main Component Analysis)は、データビジュアライゼーション、デノイング、次元削減のためのツールである。
最近の教師付き学習手法は、外見的な観察を扱う上で大きな成功を収めている。
本稿では,MoM原理に基づくPCA手法を提案する。
論文 参考訳(メタデータ) (2021-02-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。