論文の概要: SSR: Socratic Self-Refine for Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2511.10621v1
- Date: Fri, 14 Nov 2025 02:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.960482
- Title: SSR: Socratic Self-Refine for Large Language Model Reasoning
- Title(参考訳): SSR: 大規模言語モデル推論のためのソクラテス的自己定義
- Authors: Haizhou Shi, Ye Liu, Bo Pang, Zeyu Leo Liu, Hao Wang, Silvio Savarese, Caiming Xiong, Yingbo Zhou, Semih Yavuz,
- Abstract要約: Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
- 参考スコア(独自算出の注目度): 78.62319252287938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable reasoning abilities, yet existing test-time frameworks often rely on coarse self-verification and self-correction, limiting their effectiveness on complex tasks. In this paper, we propose Socratic Self-Refine (SSR), a novel framework for fine-grained evaluation and precise refinement of LLM reasoning. Our proposed SSR decomposes model responses into verifiable (sub-question, sub-answer) pairs, enabling step-level confidence estimation through controlled re-solving and self-consistency checks. By pinpointing unreliable steps and iteratively refining them, SSR produces more accurate and interpretable reasoning chains. Empirical results across five reasoning benchmarks and three LLMs show that SSR consistently outperforms state-of-the-art iterative self-refinement baselines. Beyond performance gains, SSR provides a principled black-box approach for evaluating and understanding the internal reasoning processes of LLMs. Code is available at https://github.com/SalesforceAIResearch/socratic-self-refine-reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、顕著な推論能力を示しているが、既存のテストタイムフレームワークは、しばしば粗い自己検証と自己補正に依存しており、複雑なタスクでの有効性を制限している。
本稿では,LLM推論のきめ細かい評価と精度向上のための新しいフレームワークであるソクラティック・セルフリファイン(SSR)を提案する。
提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,制御された再解決と自己整合性チェックによるステップレベルの信頼度推定を可能にする。
信頼できないステップをピンポイントし、繰り返し精製することで、SSRはより正確で解釈可能な推論連鎖を生成する。
5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
性能向上以外にも、SSRはLCMの内部推論プロセスの評価と理解のために、原則化されたブラックボックスアプローチを提供する。
コードはhttps://github.com/SalesforceAIResearch/socratic-self-refine-reasoning.comから入手できる。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Mapping the Minds of LLMs: A Graph-Based Analysis of Reasoning LLM [11.181783720439563]
大規模言語モデル(LLM)は、拡張されたChain-of-Thought(CoT)生成を通じて洗練された推論能力を示す。
RLMは、数発のプロンプトによる性能劣化など、直感的で不安定な動作を示すことが多い。
RLMの推論過程をより良くモデル化するための統一的なグラフベース分析フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:54:57Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Reinforcing Thinking through Reasoning-Enhanced Reward Models [6.636512424910708]
大規模言語モデル(LLM)は、推論時思考による複雑な多段階推論において大きな可能性を秘めている。
LLMは、知識境界に対する自己認識が限られているため、いつ思考をやめるかを決めるのに苦労する。
この研究は、LLM自身の推論プロセスを合成行動データに蒸留することで、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-12-31T04:50:15Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。