論文の概要: TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement
- arxiv url: http://arxiv.org/abs/2603.03297v1
- Date: Fri, 06 Feb 2026 18:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.121688
- Title: TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement
- Title(参考訳): TTSR: 連続推論改善のためのテスト時間自己回帰
- Authors: Haoyang He, Zihua Rong, Liangjie Zhao, Yunjia Zhao, Lan Yang, Honggang Zhang,
- Abstract要約: テストタイムトレーニングは、テスト質問のみを使用してモデル適応を可能にする。
自己回帰テスト時自己進化学習フレームワークである textbfTTSR を提案する。
- 参考スコア(独自算出の注目度): 7.122068644799895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time Training enables model adaptation using only test questions and offers a promising paradigm for improving the reasoning ability of large language models (LLMs). However, it faces two major challenges: test questions are often highly difficult, making self-generated pseudo-labels unreliable, and existing methods lack effective mechanisms to adapt to a model's specific reasoning weaknesses, leading to inefficient learning. To address these issues, we propose \textbf{TTSR}, a self-reflective test-time self-evolving training framework. TTSR employs a single pretrained language model that alternates between the roles of a \textit{Student} and a \textit{Teacher} at test time. The Student focuses on solving problems and learning from synthesized variant questions, while the Teacher analyzes the Student's failed reasoning trajectories, summarizes recurring reasoning weaknesses, and synthesizes targeted variant questions accordingly. This process guides the model to improve within a learnable regime through a continual self-evolving loop. Experimental results on multiple challenging mathematical reasoning benchmarks show that TTSR consistently improves reasoning performance and generalizes well across different model backbones and general-domain reasoning tasks. These findings suggest that teacher-mediated self-reflection provides an effective pathway for stable and continual reasoning improvement at test time.
- Abstract(参考訳): テストタイムトレーニングは、テスト質問のみを使用してモデル適応を可能にし、大規模言語モデル(LLM)の推論能力を改善するための有望なパラダイムを提供する。
しかし、それは2つの大きな課題に直面している: テストの質問は、しばしば非常に困難であり、自己生成された擬似ラベルを信頼できないものにし、既存の手法はモデルの特定の推論の弱点に適応するための効果的なメカニズムを欠いているため、非効率な学習につながる。
これらの問題に対処するために,自己回帰型テストタイム自己進化学習フレームワークである \textbf{TTSR} を提案する。
TTSRは、テスト時に \textit{Student} と \textit{Teacher} を交互に使用する、単一の事前訓練された言語モデルを採用している。
教師は、学生の失敗する推論の軌跡を分析し、繰り返し発生する推論の弱点を要約し、対象とする変分質問を合成する。
このプロセスは、連続的な自己進化ループを通じて学習可能な体制内で改善するモデルを導く。
複数の挑戦的な数学的推論ベンチマークによる実験結果から、TTSRは推論性能を一貫して改善し、異なるモデルバックボーンと汎用ドメイン推論タスクにまたがってうまく一般化することが示された。
これらの結果から, 教師による自己回帰は, 試験時間における安定的, 連続的推論改善に有効な経路であることが示唆された。
関連論文リスト
- TTCS: Test-Time Curriculum Synthesis for Self-Evolving [47.826209735956716]
テストタイムトレーニングは、大きな言語モデルの推論能力を改善するための有望な方法を提供する。
テスト時間トレーニングフレームワークTTCSを提案する。
TTCSは,挑戦的な数学ベンチマークにおける推論能力を一貫して強化することを示す。
論文 参考訳(メタデータ) (2026-01-30T06:38:02Z) - Counterfactual Self-Questioning for Stable Policy Optimization in Language Models [0.0]
本稿では,一つの言語モデルが自己推論の反現実的批判を生成・評価するフレームワークである反現実的自問法を提案する。
複数の数学的推論ベンチマークの実験は、特により小さなモデルにおいて、反実的な自己探究によって精度と訓練安定性が向上することを示している。
論文 参考訳(メタデータ) (2025-12-31T09:10:37Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors [58.65143578052761]
本稿では,推論誤りの高品質な合成例を構成する新しい手法であるMISTAKEを提案する。
3つの教育課題において,MISTAKEを評価した結果,(1)誤答のシミュレーションにおいて高い精度が得られた。
論文 参考訳(メタデータ) (2025-10-13T15:10:38Z) - Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA [10.122669382758122]
モデルに対して質問が効果的に解決できない場合、思考の急激な連鎖(CoT)が出現しがちであることを示す。
結果監督型報酬モデルと強化学習をグループ相対的優位性で適用し,その目的に可解性を取り入れた。
本結果は,CoT推論における幻覚の低減と信頼性向上の鍵要因として可溶性を強調した。
論文 参考訳(メタデータ) (2025-09-30T08:34:16Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。