Fugu-MT 論文翻訳(概要): J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge

論文の概要: J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge

arxiv url: http://arxiv.org/abs/2505.11875v1
Date: Sat, 17 May 2025 06:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:10.907896
Title: J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge
Title（参考訳）: J1: LLM-as-a-Judgeのシンプルなテストタイムスケーリングを探る
Authors: Chi-Min Chan, Chunpu Xu, Jiaming Ji, Zhen Ye, Pengcheng Wen, Chunyang Jiang, Yaodong Yang, Wei Xue, Sirui Han, Yike Guo,
Abstract要約: 本稿では,リジェクションサンプリングによって収集されたリフレクション強化データセットを教師付きで調整した$textbfJ1-7B$を紹介する。推論時に、さらなるパフォーマンス改善のためにシンプルなテスト時間スケーリング(STTS)戦略を適用します。実験の結果、$textbfJ1-7B$は、以前の最先端のLM-as-a-Judgeを$ textbf4.8$%超え、STTSの下でより強いスケーリング傾向を示す。
参考スコア（独自算出の注目度）: 24.607213170485743
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The current focus of AI research is shifting from emphasizing model training towards enhancing evaluation quality, a transition that is crucial for driving further advancements in AI systems. Traditional evaluation methods typically rely on reward models assigning scalar preference scores to outputs. Although effective, such approaches lack interpretability, leaving users often uncertain about why a reward model rates a particular response as high or low. The advent of LLM-as-a-Judge provides a more scalable and interpretable method of supervision, offering insights into the decision-making process. Moreover, with the emergence of large reasoning models, which consume more tokens for deeper thinking and answer refinement, scaling test-time computation in the LLM-as-a-Judge paradigm presents an avenue for further boosting performance and providing more interpretability through reasoning traces. In this paper, we introduce $\textbf{J1-7B}$, which is first supervised fine-tuned on reflection-enhanced datasets collected via rejection-sampling and subsequently trained using Reinforcement Learning (RL) with verifiable rewards. At inference time, we apply Simple Test-Time Scaling (STTS) strategies for additional performance improvement. Experimental results demonstrate that $\textbf{J1-7B}$ surpasses the previous state-of-the-art LLM-as-a-Judge by $ \textbf{4.8}$\% and exhibits a $ \textbf{5.1}$\% stronger scaling trend under STTS. Additionally, we present three key findings: (1) Existing LLM-as-a-Judge does not inherently exhibit such scaling trend. (2) Model simply fine-tuned on reflection-enhanced datasets continues to demonstrate similarly weak scaling behavior. (3) Significant scaling trend emerges primarily during the RL phase, suggesting that effective STTS capability is acquired predominantly through RL training.
Abstract（参考訳）: AI研究の現在の焦点は、モデルトレーニングの強調から評価品質の向上への移行にある。従来の評価手法は通常、スカラーの選好スコアを出力に割り当てる報酬モデルに依存している。効果はあるものの、そのようなアプローチは解釈可能性に欠けており、報酬モデルが特定の反応を高いか低いかで評価する理由についてユーザが不確実であることが多い。 LLM-as-a-Judgeの出現は、よりスケーラブルで解釈可能な監視方法を提供し、意思決定プロセスに関する洞察を提供する。さらに、より深い思考と答えの洗練のためにより多くのトークンを消費する大規模推論モデルの出現に伴い、LLM-as-a-Judgeパラダイムにおけるテスト時間計算のスケーリングは、さらなるパフォーマンス向上と、推論トレースによる解釈可能性の向上の道筋を示す。本稿では、まず、リフレクション・サンプリングによって収集されたリフレクション・エンハンス・データセットを微調整し、その後、検証可能な報酬を持つ強化学習(RL)を用いて訓練する$\textbf{J1-7B}$を紹介する。推論時に、さらなるパフォーマンス改善のためにシンプルなテスト時間スケーリング(STTS)戦略を適用します。実験の結果、$\textbf{J1-7B}$は、以前の最先端のLM-as-a-Judgeを$ \textbf{4.8}$\%で上回り、STTSの下でより強いスケーリング傾向を示す。 1)既存のLSM-as-a-Judgeは本質的にそのようなスケーリング傾向を示していない。 2) リフレクション強化データセットを微調整したモデルも同様に弱いスケーリング動作を示し続けている。 3) RL 期には,STTS の有効能力は RL トレーニングによって獲得されることが示唆された。

関連論文リスト

ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。 GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文参考訳（メタデータ） (2025-07-03T17:44:55Z)
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs [49.01449646799905]
既存の推論モデルでは外挿がうまく行われていないことが示される。レシピ e3 は AIME'25 と HMMT'25 のスコアに基づいて最もよく知られた 1.7B モデルを生成する。 e3-1.7Bモデルは、高いpass@1スコアを得るだけでなく、ベースモデルよりもpass@kを改善する。
論文参考訳（メタデータ） (2025-06-10T17:52:42Z)
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。 LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-19T16:26:02Z)
Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory [79.63672515243765]
本稿では、標準的で現実的なスケーリング設定である多数決に焦点をあてる。サンプリング時間と計算オーバーヘッドが増加するにつれて、より優れた初期性能を持つ複雑なプロンプト戦略が、次第に単純なチェーン・オブ・サート(Chain-of-Thought)に遅れることが示される。本稿では,スケーリング性能を迅速かつ正確に予測し,大規模なサンプリング時間で最良の戦略を選択するための確率理論に基づく手法を提案する。
論文参考訳（メタデータ） (2025-05-16T08:28:57Z)
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。本研究はRLVRの現状を批判的に考察する。現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文参考訳（メタデータ） (2025-04-18T17:59:56Z)
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [34.806610134389366]
NoisyRolloutは、RLトレーニング中にきれいな画像と歪んだ画像の両方の軌跡を混合する、シンプルだが効果的なデータ拡張手法である。 NoisyRolloutは、視覚知覚と結果の推論パターンに目的の多様性を注入することによって、視覚指向の帰納的バイアスを通じて、より良い政策探索を促進する。 NoisyRolloutは5ドルのドメイン外推論と知覚ベンチマークで、オープンソースのRLチューニングモデルの最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-17T16:10:13Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Think or Not Think: A Study of Explicit Thinking in Rule-Based Visual Reinforcement Fine-Tuning [7.78764814568908]
まず,MLLM画像分類のためのCRS-RLを提案する。 RFTにおける明示的な思考が常に必要かどうかを再考し、疑問を呈する。 No-Thinking-RL は単純な等式精度の報酬を導入することで、考えることなく RFT を探索する。
論文参考訳（メタデータ） (2025-03-20T14:37:45Z)
The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。 UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文参考訳（メタデータ） (2025-03-04T18:56:03Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation [17.432401371613903]
本稿では,コード正確性評価のための資源効率の高いシステム2思考フレームワークを提案する。 MCTS-Judgeはモンテカルロ木探索を用いて問題を単純かつ多視点的な評価に分解する。高精度で単体テストレベルの報酬メカニズムは、大規模言語モデルにライン・バイ・ライン分析の実行を促す。
論文参考訳（メタデータ） (2025-02-18T02:55:48Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。