論文の概要: Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework
- arxiv url: http://arxiv.org/abs/2509.05007v2
- Date: Mon, 08 Sep 2025 03:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.406851
- Title: Sticker-TTS: Learn to Utilize Historical Experience with a Sticker-driven Test-Time Scaling Framework
- Title(参考訳): Sticker-TTS: ステッカー駆動テストタイムスケーリングフレームワークによる歴史的経験の活用を学ぶ
- Authors: Jie Chen, Jinhao Jiang, Yingqian Min, Zican Dong, Shijie Wang, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 大規模推論モデルのための新しいテスト時間スケーリングフレームワークである Sticker-TTS を提案する。
フレームワークの中核は、重要な情報の抽出、精錬、再利用を促進するキー条件付きステッカーである。
Sticker-TTSは、自己整合性や高度な強化学習アプローチを含む、強いベースラインを一貫して超越していることを示す。
- 参考スコア(独自算出の注目度): 97.11629413081651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have exhibited strong performance on complex reasoning tasks, with further gains achievable through increased computational budgets at inference. However, current test-time scaling methods predominantly rely on redundant sampling, ignoring the historical experience utilization, thereby limiting computational efficiency. To overcome this limitation, we propose Sticker-TTS, a novel test-time scaling framework that coordinates three collaborative LRMs to iteratively explore and refine solutions guided by historical attempts. At the core of our framework are distilled key conditions-termed stickers-which drive the extraction, refinement, and reuse of critical information across multiple rounds of reasoning. To further enhance the efficiency and performance of our framework, we introduce a two-stage optimization strategy that combines imitation learning with self-improvement, enabling progressive refinement. Extensive evaluations on three challenging mathematical reasoning benchmarks, including AIME-24, AIME-25, and OlymMATH, demonstrate that Sticker-TTS consistently surpasses strong baselines, including self-consistency and advanced reinforcement learning approaches, under comparable inference budgets. These results highlight the effectiveness of sticker-guided historical experience utilization. Our code and data are available at https://github.com/RUCAIBox/Sticker-TTS.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な推論タスクにおいて高い性能を示しており、推論における計算予算の増大によってさらに達成可能である。
しかし、現在のテスト時間スケーリング手法は、主に冗長サンプリングに依存しており、歴史的経験の利用を無視し、計算効率を制限している。
この制限を克服するために、歴史的試みによって導かれたソリューションを反復的に探索・洗練するために、3つの協調的なLEMを協調する新しいテスト時間スケーリングフレームワークである Sticker-TTS を提案する。
フレームワークの中核は、複数の推論ラウンドにわたる重要な情報の抽出、精錬、再利用を促進するキー条件付きステッカーである。
フレームワークの効率性と性能をさらに向上するため,模倣学習と自己改善を併用した2段階最適化戦略を導入し,プログレッシブ・リファインメントを実現する。
AIME-24、AIME-25、OlymMATHを含む3つの挑戦的な数学的推論ベンチマークに対する広範囲な評価は、Sticker-TTSが同等の推論予算の下で、自己整合性や高度な強化学習アプローチを含む強いベースラインを一貫して超えることを示した。
これらの結果は,ステッカーガイドによる歴史的経験の活用の有効性を浮き彫りにした。
私たちのコードとデータはhttps://github.com/RUCAIBox/Sticker-TTS.comで公開されています。
関連論文リスト
- TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - TwT: Thinking without Tokens by Habitual Reasoning Distillation with Multi-Teachers' Guidance [42.8895384120507]
多教師指導による常習的推論蒸留による推論時間コスト削減手法TwTを提案する。
提案手法は,教師指導型圧縮戦略により,モデルの習慣行動に対する明確な推論を内包する。
実験により,TwTは優れた性能を維持しつつ,推論コストを効果的に低減できることが示された。
論文 参考訳(メタデータ) (2025-03-31T15:16:31Z) - CoT-Driven Framework for Short Text Classification: Enhancing and Transferring Capabilities from Large to Smaller Model [5.331916925505735]
短いテキスト分類(STC)は、現代デジタルプラットフォームで普及している短いが実質的な内容の処理と理解に不可欠である。
本稿では, STCタスクを4つのステップに分割するSSE-CoT法を提案する。
次に、CDMT(CoT-Driven Multi-Task Learning)フレームワークを導入し、これらの機能をより小さなモデルに拡張します。
論文 参考訳(メタデータ) (2024-01-06T08:28:20Z) - Robust Dialogue State Tracking with Weak Supervision and Sparse Data [2.580163308334609]
対話状態追跡(DST)を新しいデータに一般化することは、トレーニング中の豊富なきめ細かい監督に依存しているため困難である。
サンプルの間隔、分布シフト、新しい概念やトピックの発生は、しばしば推論中に深刻なパフォーマンス劣化を引き起こす。
そこで本研究では,詳細な手動スパンラベルを必要とせず,抽出DSTモデルを構築するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T16:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。