論文の概要: CG-TTRL: Context-Guided Test-Time Reinforcement Learning for On-Device Large Language Models
- arxiv url: http://arxiv.org/abs/2511.06430v1
- Date: Sun, 09 Nov 2025 15:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.942863
- Title: CG-TTRL: Context-Guided Test-Time Reinforcement Learning for On-Device Large Language Models
- Title(参考訳): CG-TTRL:オンデバイス大規模言語モデルのためのコンテキストガイド型テスト時間強化学習
- Authors: Peyman Hosseini, Ondrej Bohdal, Taha Ceritli, Ignacio Castro, Matthew Purver, Mete Ozay, Umberto Michieli,
- Abstract要約: TTRL(Test-time Reinforcement Learning)は、テスト時に複雑なタスクに基礎モデルを適用することを約束している。
本稿では,両方のサンプリングフェーズに動的にコンテキストを組み込んだコンテキスト誘導型TTRLを提案し,デバイス上での効率的なコンテキスト選択法を提案する。
- 参考スコア(独自算出の注目度): 37.06397567773862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time Reinforcement Learning (TTRL) has shown promise in adapting foundation models for complex tasks at test-time, resulting in large performance improvements. TTRL leverages an elegant two-phase sampling strategy: first, multi-sampling derives a pseudo-label via majority voting, while subsequent downsampling and reward-based fine-tuning encourages the model to explore and learn diverse valid solutions, with the pseudo-label modulating the reward signal. Meanwhile, in-context learning has been widely explored at inference time and demonstrated the ability to enhance model performance without weight updates. However, TTRL's two-phase sampling strategy under-utilizes contextual guidance, which can potentially improve pseudo-label accuracy in the initial exploitation phase while regulating exploration in the second. To address this, we propose context-guided TTRL (CG-TTRL), integrating context dynamically into both sampling phases and propose a method for efficient context selection for on-device applications. Our evaluations on mathematical and scientific QA benchmarks show CG-TTRL outperforms TTRL (e.g. additional 7% relative accuracy improvement over TTRL), while boosting efficiency by obtaining strong performance after only a few steps of test-time training (e.g. 8% relative improvement rather than 1% over TTRL after 3 steps).
- Abstract(参考訳): TTRL(Test-time Reinforcement Learning)は、テスト時に複雑なタスクに基礎モデルを適応させることで、大幅なパフォーマンス向上を実現している。
TTRLはエレガントな2段階サンプリング戦略を利用する: まず、マルチサンプリングは多数決によって擬似ラベルを導出する。
一方、文脈内学習は推論時に広く研究され、重み付けを伴わずにモデル性能を向上させる能力を示した。
しかし、TTRLの2相サンプリング戦略はコンテキストガイダンスを過小評価しており、第2の探索を規制しながら、初期利用フェーズにおける擬似ラベル精度を向上させる可能性がある。
そこで,本研究では,コンテキスト誘導型TTRL (CG-TTRL) を提案する。
数理的および科学的QAベンチマークによる評価の結果,CG-TTRLはTTRL(TTRLよりも7%高い精度向上)より優れており,テストタイムトレーニングのわずか数ステップ後に高い性能(TTRLより1%よりも8%の相対改善)を得ることで効率を向上させることができた。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - TTRL: Test-Time Reinforcement Learning [31.351608137721875]
TTRL(Test-Time Reinforcement Learning)は、ラベルのないデータに基づいて大規模言語モデル(LLM)を訓練する新しい手法である。
実験の結果,TTRLは様々なタスクやモデルに対して一貫して性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T17:59:56Z) - Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。
これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。
The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文 参考訳(メタデータ) (2025-02-05T07:13:43Z) - LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models [23.218237408724676]
視覚言語モデル(VLM)のための新しいテスト時間訓練(TTT)法であるLoRA-TTTを提案する。
テスト期間中にLoRAを導入し,パラメータのみを更新することにより,本手法は単純かつ効果的なTTTアプローチを提供する。
本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
論文 参考訳(メタデータ) (2025-02-04T07:40:26Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。