論文の概要: TTCS: Test-Time Curriculum Synthesis for Self-Evolving
- arxiv url: http://arxiv.org/abs/2601.22628v1
- Date: Fri, 30 Jan 2026 06:38:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.27403
- Title: TTCS: Test-Time Curriculum Synthesis for Self-Evolving
- Title(参考訳): TTCS:自己進化のためのテスト時間カリキュラム合成
- Authors: Chengyi Yang, Zhishang Xiang, Yunbo Tang, Zongpei Teng, Chengsong Huang, Fei Long, Yuhan Liu, Jinsong Su,
- Abstract要約: テストタイムトレーニングは、大きな言語モデルの推論能力を改善するための有望な方法を提供する。
テスト時間トレーニングフレームワークTTCSを提案する。
TTCSは,挑戦的な数学ベンチマークにおける推論能力を一貫して強化することを示す。
- 参考スコア(独自算出の注目度): 47.826209735956716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-Time Training offers a promising way to improve the reasoning ability of large language models (LLMs) by adapting the model using only the test questions. However, existing methods struggle with difficult reasoning problems for two reasons: raw test questions are often too difficult to yield high-quality pseudo-labels, and the limited size of test sets makes continuous online updates prone to instability. To address these limitations, we propose TTCS, a co-evolving test-time training framework. Specifically, TTCS initializes two policies from the same pretrained model: a question synthesizer and a reasoning solver. These policies evolve through iterative optimization: the synthesizer generates progressively challenging question variants conditioned on the test questions, creating a structured curriculum tailored to the solver's current capability, while the solver updates itself using self-consistency rewards computed from multiple sampled responses on both original test and synthetic questions. Crucially, the solver's feedback guides the synthesizer to generate questions aligned with the model's current capability, and the generated question variants in turn stabilize the solver's test-time training. Experiments show that TTCS consistently strengthens the reasoning ability on challenging mathematical benchmarks and transfers to general-domain tasks across different LLM backbones, highlighting a scalable path towards dynamically constructing test-time curricula for self-evolving. Our code and implementation details are available at https://github.com/XMUDeepLIT/TTCS.
- Abstract(参考訳): テスト時間トレーニングは、テスト質問のみを使用してモデルを適応することにより、大規模言語モデル(LLM)の推論能力を改善するための有望な方法を提供する。
しかし、既存の手法は2つの理由で難しい推論問題に苦しむ: 生のテストの質問は、高品質な擬似ラベルを得るのが難しいことが多く、テストセットのサイズが制限されることで、継続的なオンライン更新は不安定になりがちである。
これらの制約に対処するため,テスト時間トレーニングフレームワークTTCSを提案する。
具体的には、TTCSは、同じ事前訓練されたモデルから、質問合成器と推論解器という2つのポリシーを初期化する。
これらのポリシーは、反復最適化によって進化する: シンセサイザーは、テスト質問に条件付けられた漸進的に挑戦的な質問変種を生成し、ソルバの現在の能力に合わせて構造化されたカリキュラムを作成し、ソルバは、元のテストと合成質問の両方で複数のサンプル応答から計算された自己整合性報酬を用いて自身を更新する。
重要なことに、ソルバのフィードバックはシンセサイザーを誘導し、モデルの現在の能力に合わせた質問を生成し、生成された質問バリアントはソルバのテストタイムトレーニングを安定化させる。
実験の結果,TTCS は様々な LLM バックボーンにまたがる汎用ドメインタスクへの変換や数学的なベンチマークに対する推論能力を一貫して強化し,自己進化のためのテスト時キュリキュラを動的に構築するためのスケーラブルな経路を強調している。
コードと実装の詳細はhttps://github.com/XMUDeepLIT/TTCS.comで確認できます。
関連論文リスト
- HLTCOE Evaluation Team at TREC 2025: VQA Track [76.85337417923331]
HLT評価チームはTREC VQAのAnswer Generation (AG)タスクに参加した。
回答生成における意味的精度とランキングの整合性を改善することを目的としたリストワイズ学習フレームワークを開発した。
論文 参考訳(メタデータ) (2025-12-08T17:25:13Z) - LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge [31.40589987269264]
近年の知識更新から検索依存ベンチマークを構築するためのパイプラインであるLiveSearchBenchを紹介する。
提案手法は, 連続するウィキデータスナップショット間のデルタを計算し, 品質の3倍をフィルタし, 3段階の推論困難度で自然言語質問を合成する。
実験では、モデルが過去の事前トレーニングの事実に直面すると、パフォーマンスの低下が顕著になる。
論文 参考訳(メタデータ) (2025-11-03T10:00:49Z) - Code-driven Number Sequence Calculation: Enhancing the inductive Reasoning Abilities of Large Language Models [44.17697803306198]
textitCodeSeqは,数列から構築した合成後トレーニングデータセットである。
パイプラインは、失敗したテストケースを反映し、反復的な修正を取り入れることで、教師付き微妙なデータを生成する。
実験の結果,textitCodeSeqでトレーニングしたモデルでは,様々な推論タスクが改善され,OOD性能が保たれることがわかった。
論文 参考訳(メタデータ) (2025-10-16T12:29:40Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。
SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。
以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:03:16Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Momentum Contrastive Pre-training for Question Answering [54.57078061878619]
MCROSSはモーメントコントラスト学習フレームワークを導入し、クローゼのような解答確率と自然な問合せのサンプルペアを一致させる。
本手法は,教師付きシナリオとゼロショットシナリオの両方において,すべてのベースラインと比較して顕著な改善を実現している。
論文 参考訳(メタデータ) (2022-12-12T08:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。