論文の概要: STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11233v1
- Date: Fri, 14 Nov 2025 12:34:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.585287
- Title: STaR: Towards Cognitive Table Reasoning via Slow-Thinking Large Language Models
- Title(参考訳): STaR: Slow-Thinking Large Language Modelによる認知表推論
- Authors: Huajian Zhang, Mingyue Cheng, Yucong Luo, Xiaoyu Tao,
- Abstract要約: 本稿では、認知テーブル推論を実現するための新しいフレームワークSTaR(slow-thinking for table reasoning)を提案する。
STaRはステップバイステップ思考と不確実性認識推論を明示的にモデル化する。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
- 参考スコア(独自算出の注目度): 12.745473719032026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Table reasoning with the large language models (LLMs) is a fundamental path toward building intelligent systems that can understand and analyze over structured data. While recent progress has shown promising results, they still suffer from two key limitations: (i) the reasoning processes lack the depth and iterative refinement characteristic of human cognition; and (ii) the reasoning processes exhibit instability, which compromises their reliability in downstream applications. In this work, we present STaR (slow-thinking for table reasoning), a new framework achieving cognitive table reasoning, in which LLMs are equipped with slow-thinking capabilities by explicitly modeling step-by-step thinking and uncertainty-aware inference. During training, STaR employs two-stage difficulty-aware reinforcement learning (DRL), progressively learning from simple to complex queries under a composite reward. During inference, STaR performs trajectory-level uncertainty quantification by integrating token-level confidence and answer consistency, enabling selection of more credible reasoning paths. Extensive experiments on benchmarks demonstrate that STaR achieves superior performance and enhanced reasoning stability. Moreover, strong generalization over out-of-domain datasets further demonstrates STaR's potential as a reliable and cognitively inspired solution for table reasoning with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)によるテーブル推論は、構造化されたデータについて理解し分析できるインテリジェントシステムを構築するための基本的な道である。
最近の進歩は有望な結果を示しているが、それでも2つの重要な制限に悩まされている。
一 人間の認識の深度及び反復的洗練性に欠ける理由
(II) ダウンストリームアプリケーションにおける信頼性を損なうような不安定性を示す推論プロセス。
本稿では,段階的思考と不確実性を考慮した推論を明示的にモデル化することにより,LLMがスロー思考機能を備えた,認知テーブル推論を実現する新しいフレームワークSTaRを提案する。
トレーニング中、STaRは2段階の困難認識強化学習(DRL)を採用し、複合報酬の下で単純なクエリから複雑なクエリへと段階的に学習する。
推論中、STaRはトークンレベルの信頼と回答の整合性を統合することで軌道レベルの不確実性定量化を行い、より信頼できる推論経路の選択を可能にする。
ベンチマーク実験により、STaRは優れた性能を示し、推論安定性が向上した。
さらに、ドメイン外のデータセットに対する強力な一般化は、LLMを用いたテーブル推論のための信頼性と認知的なソリューションとしてのSTaRの可能性をさらに示している。
関連論文リスト
- CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - The Curse of CoT: On the Limitations of Chain-of-Thought in In-Context Learning [56.574829311863446]
CoT(Chain-of-Thought)プロンプトは,大規模言語モデル(LLM)における推論能力の向上によって広く認識されている。
我々は、CoTとその推論変異が、様々なモデルスケールやベンチマークの複雑さに対して、直接応答を一貫して過小評価していることを実証する。
パターンベースICLにおけるCoTの性能を駆動する明示的単純推論の基本的なハイブリッド機構を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T13:51:06Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [35.43513487137371]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。