論文の概要: Training-Free Test-Time Contrastive Learning for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.13552v1
- Date: Wed, 15 Apr 2026 06:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.425345
- Title: Training-Free Test-Time Contrastive Learning for Large Language Models
- Title(参考訳): 大規模言語モデルのための学習自由テスト時間コントラスト学習
- Authors: Kaiwen Zheng, Kai Zhou, Jinwu Hu, Te Gu, Mingkai Peng, Fei Liu,
- Abstract要約: TF-TTCLは、大規模言語モデルのトレーニングフリー適応フレームワークである。
TF-TTCLは、3つのコアモジュールを通して動的"Explore-Reflect-Steer"ループを実装している。
- 参考スコア(独自算出の注目度): 18.994863398371294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate strong reasoning capabilities, but their performance often degrades under distribution shift. Existing test-time adaptation (TTA) methods rely on gradient-based updates that require white-box access and need substantial overhead, while training-free alternatives are either static or depend on external guidance. In this paper, we propose Training-Free Test-Time Contrastive Learning TF-TTCL, a training-free adaptation framework that enables a frozen LLM to improve online by distilling supervision from its own inference experiences. Specifically, TF-TTCL implements a dynamic "Explore-Reflect-Steer" loop through three core modules: 1) Semantic Query Augmentation first diversifies problem views via multi-agent role-playing to generate different reasoning trajectories; 2) Contrastive Experience Distillation then captures the semantic gap between superior and inferior trajectories, distilling them into explicit textual rules; and 3) Contextual Rule Retrieval finally activates these stored rules during inference to dynamically steer the frozen LLM toward robust reasoning patterns while avoiding observed errors. Extensive experiments on closed-ended reasoning tasks and open-ended evaluation tasks demonstrate that TF-TTCL consistently outperforms strong zero-shot baselines and representative TTA methods under online evaluation. Code is available at https://github.com/KevinSCUTer/TF-TTCL.
- Abstract(参考訳): 大規模言語モデル(LLM)は強力な推論能力を示すが、その性能は分散シフトによって劣化することが多い。
既存のテスト時間適応(TTA)メソッドは、ホワイトボックスアクセスを必要とし、かなりのオーバーヘッドを必要とする勾配ベースの更新に依存している。
本稿では, 凍結LDMをオンライン化するための学習自由時間比較学習フレームワークTF-TTCLを提案する。
具体的には、TF-TTCLは3つのコアモジュールを通して動的"Explore-Reflect-Steer"ループを実装している。
1)Semantic Query Augmentationは、まずマルチエージェントロールプレイングを介して問題ビューを多様化し、異なる推論軌道を生成する。
2) 比較経験蒸留は,上位と下位の軌跡間の意味的ギャップを捉え,それらを明示的なテキスト規則に蒸留する。
3) 文脈規則検索は, 観測誤差を回避しつつ, 凍結したLCMをロバストな推論パターンに向けて動的に操縦するために, 推論中にこれらのストアドルールを最終的に活性化する。
クローズドエンド推論タスクとオープンエンド評価タスクの広範な実験により、TF-TTCLは、オンライン評価において、強いゼロショットベースラインや代表的TTAメソッドよりも一貫して優れていることが示された。
コードはhttps://github.com/KevinSCUTer/TF-TTCLで入手できる。
関連論文リスト
- The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Asking LLMs to Verify First is Almost Free Lunch [36.15605737954829]
大規模言語モデル(LLM)の推論能力を高めるために、検証ファースト(VF)を導入する。
VFは、ソリューションを生成する前に、提供された候補回答、あるいは自明またはランダムな回答を検証するようモデルに促す。
検証生成過程を反復的に循環する逐次テスト時間スケーリング (TTS) 手法である Iter-VF に VF 戦略を一般化する。
論文 参考訳(メタデータ) (2025-11-21T09:55:34Z) - LANPO: Bootstrapping Language and Numerical Feedback for Reinforcement Learning in LLMs [73.27182315028021]
LANPOは、フィードバックの役割をきれいに分離するフレームワークである。
我々の研究は、歴史体験をLLM RLループに統合する堅牢な方法を提供し、より効果的でデータ効率のよい学習エージェントを作成します。
論文 参考訳(メタデータ) (2025-10-18T15:51:19Z) - Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization [5.674809920704963]
Latent Thought Policy Optimizationは、LLM推論を完全にテスト時に強化する。
実験により、LTPOは標準タスクの強いベースラインに適合または超えるだけでなく、他のタスクが失敗する際、顕著な堅牢性を示すことが示された。
とりわけ、既存の遅延推論ベースラインがほぼゼロに近い精度に崩壊する非常に難しいAIMEベンチマークでは、LTPOが大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-05T12:50:39Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。