論文の概要: CCQA: Generating Question from Solution Can Improve Inference-Time Reasoning in SLMs
- arxiv url: http://arxiv.org/abs/2509.18536v1
- Date: Tue, 23 Sep 2025 02:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.644173
- Title: CCQA: Generating Question from Solution Can Improve Inference-Time Reasoning in SLMs
- Title(参考訳): CCQA: SLMにおける推論時間推論を改善するソリューションから質問を生成する
- Authors: Jin Young Kim, Ji Won Yoon,
- Abstract要約: textbfQuestion textbfAnswering (CCQA)におけるtextbfCycle-textbf一貫性を提案する。
CCQAは、サイクル一貫性に着想を得て、各推論経路から質問を生成し、それぞれが元の質問と類似度で評価し、次に、最も類似度の高い候補解を最終応答として選択する。
CCQAは数学および常識推論ベンチマークにおいて8つのモデルで既存の最先端(SOTA)手法を一貫して上回っていることが確認された。
- 参考スコア(独自算出の注目度): 14.97707719362011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, inference-time reasoning strategies have further improved the accuracy of large language models (LLMs), but their effectiveness on smaller models remains unclear. Based on the observation that conventional approaches often fail to improve performance in this context, we propose \textbf{C}ycle-\textbf{C}onsistency in \textbf{Q}uestion \textbf{A}nswering (CCQA), a novel reasoning method that can be effectively applied to SLMs. Inspired by cycle consistency, CCQA generates a question from each reasoning path and answer, evaluates each by its similarity to the original question, and then selects the candidate solution with the highest similarity score as the final response. Since conventional SLMs struggle to generate accurate questions from their own reasoning paths and answers, we employ a lightweight Flan-T5 model specialized for question generation to support this process efficiently. From the experimental results, it is verified that CCQA consistently outperforms existing state-of-the-art (SOTA) methods across eight models on mathematical and commonsense reasoning benchmarks. Furthermore, our method establishes a new practical baseline for efficient reasoning in SLMs. Source code can be found at https://github.com/scai-research/ccqa_official.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の精度は,推論時推論手法により向上している。
そこで本研究では,従来の手法が性能向上に失敗するケースが多いことを踏まえ,SLMに効果的に適用可能な新しい推論手法である,<textbf{C}ycle-\textbf{C}onsistency in \textbf{Q}uestion \textbf{A}nswering (CCQA)を提案する。
CCQAは、サイクル一貫性に着想を得て、各推論経路から質問を生成し、それぞれが元の質問と類似度で評価し、次に、最も類似度の高い候補解を最終応答として選択する。
従来のSLMでは,独自の推論経路や解答から正確な質問を生成するのに苦労しているため,このプロセスを効率的に支援するために,質問生成に特化した軽量なFlan-T5モデルを採用している。
実験結果から,CCQAは数学および常識推論ベンチマークにおいて8つのモデルにわたる既存の最先端(SOTA)手法を一貫して上回っていることを確認した。
さらに,本手法は,SLMにおける効率的な推論のための新しい実践的ベースラインを確立する。
ソースコードはhttps://github.com/scai-research/ccqa_officialにある。
関連論文リスト
- Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文 参考訳(メタデータ) (2025-09-30T08:34:16Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - CAMA: Enhancing Mathematical Reasoning in Large Language Models with Causal Knowledge [14.367146529900609]
大規模言語モデル(LLM)は、幅広いタスクにわたって強力なパフォーマンスを示してきたが、複雑な数学的推論に苦戦している。
我々は,LLMに明示的で再利用可能な数学的構造を持たせる2段階の因果関係フレームワークであるtextbfCAusal textbfMAthematician (textbfCAMA) を提案する。
論文 参考訳(メタデータ) (2025-08-04T16:39:24Z) - Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning [81.50681925980135]
本稿では,ステップワイズ推論チェックポイント分析(SRCA)を提案する。
本研究は,(1)中間チェックポイント回答による経路推論をグループ化して品質を確保しつつ多様性を維持するAnswer-Clustered Search,(2)最終決定にすべての中間回答を活用するCheckpoint Candidate Augmentationの2つの主要な戦略を取り入れた。
提案手法は経路均質化を効果的に低減し,高品質な中間結果を活用することにより耐故障機構を創出する。
論文 参考訳(メタデータ) (2025-05-23T12:42:50Z) - Think Deep, Think Fast: Investigating Efficiency of Verifier-free Inference-time-scaling Methods [39.89239733570008]
本研究は推論モデルと非推論モデルの両方に対する推論時間スケーリング手法を包括的に解析する。
非推論モデルは、非常に高い推論予算にもかかわらず、推論モデルに大きく遅れていることが分かっています。
推論モデルでは、多数決は堅牢な推論戦略であり、一般的に競争力があるか、あるいは他のより洗練されたITC手法よりも優れていることが証明されている。
論文 参考訳(メタデータ) (2025-04-18T19:32:55Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Prompting Strategies for Enabling Large Language Models to Infer Causation from Correlation [68.58373854950294]
我々は因果推論に焦点をあて,相関情報に基づく因果関係の確立という課題に対処する。
この問題に対して,元のタスクを固定的なサブクエストに分割するプロンプト戦略を導入する。
既存の因果ベンチマークであるCorr2Causeに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-12-18T15:32:27Z) - LLM-based Discriminative Reasoning for Knowledge Graph Question Answering [42.277864969014296]
生成事前学習型トランスフォーマーに基づく大規模言語モデル(LLM)は,知識グラフ質問応答(KGQA)タスクにおいて顕著な性能を発揮している。
しかし、LLMは、生成パラダイムによって引き起こされる幻覚的行動のために、KGQAにおいて、根拠のない部分グラフ計画や推論の結果をしばしば生み出す。
本稿では,KGQA過程を識別サブタスクに再構成するREADSを提案し,各サブタスクの検索空間を単純化する。
論文 参考訳(メタデータ) (2024-12-17T08:07:16Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。