論文の概要: TTVS: Boosting Self-Exploring Reinforcement Learning via Test-time Variational Synthesis
- arxiv url: http://arxiv.org/abs/2604.08468v1
- Date: Thu, 09 Apr 2026 17:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.038601
- Title: TTVS: Boosting Self-Exploring Reinforcement Learning via Test-time Variational Synthesis
- Title(参考訳): TTVS:テスト時間変分合成による自己探索型強化学習の促進
- Authors: Sikai Bai, Haoxi Li, Jie Zhang, Yongjiang Liu, Song Guo,
- Abstract要約: テスト時間変動合成(TTVS)は,大規模推論モデルの自己展開を可能にする新しいフレームワークである。
TTVSは静的なテストクエリを、多様な意味論的に等価なバリエーションの動的ストリームに変換する。
TTVSは8つのモデルアーキテクチャで優れた性能を示す。
- 参考スコア(独自算出の注目度): 21.127638319243932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in Large Reasoning Models (LRMs) driven by reinforcement learning with verifiable rewards (RLVR), this paradigm is fundamentally limited in specialized or novel domains where such supervision is prohibitively expensive or unavailable, posing a key challenge for test-time adaptation. While existing test-time methods offer a potential solution, they are constrained by learning from static query sets, risking overfitting to textual patterns. To address this gap, we introduce Test-Time Variational Synthesis (TTVS), a novel framework that enables LRMs to self-evolve by dynamically augmenting the training stream from unlabeled test queries. TTVS comprises two synergistic modules: (1) Online Variational Synthesis, which transforms static test queries into a dynamic stream of diverse, semantically-equivalent variations, enforcing the model to learn underlying problem logic rather than superficial patterns; (2) Test-time Hybrid Exploration, which balances accuracy-driven exploitation with consistency-driven exploration across synthetic variants. Extensive experiments show TTVS yields superior performance across eight model architectures. Notably, using only unlabeled test-time data, TTVS not only surpasses other test-time adaptation methods but also outperforms state-of-the-art supervised RL-based techniques trained on vast, high-quality labeled data.
- Abstract(参考訳): 検証可能な報酬を伴う強化学習(RLVR)によるLRM(Large Reasoning Models)の大幅な進歩にもかかわらず、このパラダイムは、そのような監督が違法に高価または利用できない分野において、本質的に制限されており、テスト時間適応の重要な課題となっている。
既存のテストタイムメソッドは潜在的な解決策を提供するが、静的なクエリセットから学習することで制約を受け、過度にテキストパターンに適合するリスクがある。
このギャップに対処するために,未ラベルのテストクエリからトレーニングストリームを動的に拡張することにより,LRMの自己進化を可能にする新しいフレームワークであるTTVS(Test-Time Variational Synthesis)を導入する。
TTVSは2つの相乗的モジュールから構成される: (1) 静的なテストクエリを多様で意味論的に等価な変動の動的ストリームに変換するオンライン変分合成(Online Variational Synthesis)、(2) テスト時ハイブリッド探索(Test-time Hybrid Exploration)。
大規模な実験では、TTVSは8つのモデルアーキテクチャで優れた性能を示す。
特に、ラベル付けされていないテストタイムデータのみを用いることで、TTVSは他のテストタイム適応手法を上回るだけでなく、巨大な高品質なラベル付きデータに基づいてトレーニングされた最先端のRLベースの技術よりも優れている。
関連論文リスト
- Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards [8.109014000578766]
ASR-TRAは、因果介入に触発された新しいテストタイム強化適応フレームワークである。
提案手法は,既存のTTAベースラインよりも低レイテンシを維持しながら高い精度を実現する。
我々のアプローチは、現実の状況に挑戦する上で、ASRシステムをデプロイするための実用的で堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2026-03-05T14:43:15Z) - UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - TTCS: Test-Time Curriculum Synthesis for Self-Evolving [47.826209735956716]
テストタイムトレーニングは、大きな言語モデルの推論能力を改善するための有望な方法を提供する。
テスト時間トレーニングフレームワークTTCSを提案する。
TTCSは,挑戦的な数学ベンチマークにおける推論能力を一貫して強化することを示す。
論文 参考訳(メタデータ) (2026-01-30T06:38:02Z) - Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - DualReward: A Dynamic Reinforcement Learning Framework for Cloze Tests Distractor Generation [0.4660328753262075]
DualRewardは、クローゼテストにおける自動イントラクタ生成のための新しい強化学習フレームワークである。
文レベル (CLOTH-F) と文レベル (MCQ) のクローゼテストデータセットについて検討した。
論文 参考訳(メタデータ) (2025-07-16T03:39:36Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Enhancing Plasticity for First Session Adaptation Continual Learning [20.62749699589017]
クラスインクリメンタルラーニング(PLASTIC)における塑性強化テスト時間適応の導入
PLASTICはモデル安定性を維持しながら可塑性をCILに再蓄積する。
従来型と最先端のPTMベースのCILアプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2023-10-17T13:06:39Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。