論文の概要: Test-time RL alignment exposes task familiarity artifacts in LLM benchmarks
- arxiv url: http://arxiv.org/abs/2603.12875v1
- Date: Fri, 13 Mar 2026 10:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.049681
- Title: Test-time RL alignment exposes task familiarity artifacts in LLM benchmarks
- Title(参考訳): テスト時間RLアライメントはLLMベンチマークでタスク親しみやすいアーティファクトを公開する
- Authors: Kun Wang, Reinhard Heckel,
- Abstract要約: 評価の前に各モデルにタスク関連トレーニングを施すことにより、タスク親しみやすさを列車前テストで制御する。
列車前テストのための2段階テスト時強化学習(RL)アライメント手法を提案する。
- 参考スコア(独自算出の注目度): 20.988724384459392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct evaluation of LLMs on benchmarks can be misleading because comparatively strong performance may reflect task familiarity rather than capability. The train-before-test approach controls for task familiarity by giving each model task-relevant training before evaluation, originally through supervised finetuning. However, suitable training data is often hard to come by, and evaluation results vary with the data chosen. In this paper, we propose a two-stage test-time reinforcement learning (RL) alignment method for train-before-test. First, RL with a single sample provides a first alignment of the model to the task format, and second, test-time RL with majority-voting reward aligns the model to the benchmark distribution. Our test-time RL alignment method aligns similarly well as SFT-based train-before test, but without requiring a task-specific training set. On a domain-specific benchmark without training data, we show that direct evaluation underestimates base models which perform substantially better once aligned, yielding a more faithful evaluation of their capabilities. Moreover, for reasoning tasks, the performance gap between fine-tuned models and their base models largely disappears after alignment, suggesting that many gains from RLVR/SFT reported in the literature are not a difference in reasoning capability, but rather artifacts of task familiarity.
- Abstract(参考訳): 比較的高い性能は、能力よりもタスクに親しみやすいことを反映している可能性があるため、ベンチマーク上でのLCMの直接評価は誤解を招く可能性がある。
列車前テストのアプローチは、各モデルのタスク関連トレーニングを評価前に与え、本来は教師付き微調整によってタスク親しみを制御します。
しかし、適切なトレーニングデータは入手し難いことが多く、評価結果は選択したデータによって異なる。
本稿では,列車前テストのための2段階テスト時強化学習(RL)アライメント手法を提案する。
第一に、単一のサンプルを持つRLは、タスク形式にモデルを第一にアライメントし、第二に、多数決の報酬を持つテストタイムRLは、モデルをベンチマーク分布にアライメントする。
テスト時間RLアライメント法は,SFTベースの列車前テストとよく似ているが,タスク固有のトレーニングセットは必要としない。
トレーニングデータのないドメイン固有のベンチマークでは、直接評価は、一度アライメントすればかなり優れた性能を示すベースモデルを過小評価し、その能力をより忠実に評価することを示した。
さらに、推論タスクでは、微調整されたモデルとそのベースモデルのパフォーマンスギャップは、アライメント後に大きく消失し、文献で報告されたRLVR/SFTから得られる多くの利益は、推論能力の違いではなく、タスクに親しみのある成果物であることを示唆している。
関連論文リスト
- DAJ: Data-Reweighted LLM Judge for Test-Time Scaling in Code Generation [30.131052926559956]
DAJは,2段階のデータ重み付け学習フレームワークを用いて報酬を訓練した推論に基づくLLM判定器である。
提案手法は,手作り検証に頼らずに,困難問題,分布内サンプル,軌跡整列データを自動的に強調する。
論文 参考訳(メタデータ) (2026-01-29T19:04:24Z) - Self-Improving LLM Agents at Test-Time [49.9396634315896]
言語モデル(LM)の1つのパラダイムは、大規模なトレーニングデータセットの作成に依存している。
実際には、大量のデータを集めることは非効率であり、それらのトレーニングは違法に高価である。
テスト時間自己改善(TT-SI)とテスト時間蒸留(TT-D)の2つのバリエーションについて検討する。
論文 参考訳(メタデータ) (2025-10-09T06:37:35Z) - Mirage or Method? How Model-Task Alignment Induces Divergent RL Conclusions [22.83151273022573]
反直感現象は、大きな言語モデル(LLM)で報告されている
RL観測を区別する重要な要因を同定する。事前学習されたモデルが既に強力なModel-Taskアライメントを示すかどうか。
この結果から, 標準RLトレーニングは, セッティング全体にわたって一貫して頑健でありながら, モデルとタスクがすでに強いモデルとタスクのアライメントを示す場合にのみ, 直感的な結果が生じることが示唆された。
論文 参考訳(メタデータ) (2025-08-28T20:02:10Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。