論文の概要: The Missing Piece in Pre-trained Model Evaluation: Reward-Guided Decoding Unlocks Task-Oriented Behavior Without Parameter Updates
- arxiv url: http://arxiv.org/abs/2605.28020v1
- Date: Wed, 27 May 2026 06:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.798245
- Title: The Missing Piece in Pre-trained Model Evaluation: Reward-Guided Decoding Unlocks Task-Oriented Behavior Without Parameter Updates
- Title(参考訳): 事前学習モデル評価における欠落点:パラメータ更新なしでタスク指向の動作をアンロックする逆ガイドデコーディング
- Authors: Shaobo Wang, Guo Chen, Ziyue Wang, Zhengyang Tang, Qingyang Liu, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: エネルギーベースデコーディング(Energy-Based Decoding)は、凍結した事前学習モデルからタスク指向の振る舞いを活性化するためのトレーニング不要で報酬誘導型フレームワークである。
EBDは,基本モデル出力をより指示追従行動にシフトさせ,学習後の動作に類似度を増すことを示す。
- 参考スコア(独自算出の注目度): 31.50160357699629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid progress of large language models (LLMs), reliably evaluating the capabilities of pre-trained LLMs has become increasingly important. The challenge is that base pre-trained models are optimized for next-token prediction and often fail to follow instructions or produce well-formed answers under standard prompting and direct decoding. As a result, benchmark performance can conflate model capability with decoding-induced failures to produce task-oriented outputs, while exposing such behavior often relies on costly post-training. Recent decodingonly approaches attempt to reshape output distributions, but such methods can be inefficient and brittle across open-ended tasks. To address these limitations, we propose Energy-Based Decoding (EBD), a training-free, reward-guided framework for activating task-oriented behaviors from frozen pre-trained LLMs across both open-ended and objective tasks. EBD augments decoding with an external lightweight reward model, steering generations toward high-utility responses while anchoring them to the pre-trained model prior through a reward-tilted target distribution. We show that EBD shifts base-model outputs toward more instructionfollowing behavior, increasing behavioral similarity to post-trained counterparts and enabling a fairer inference-time evaluation of accessible pre-trained-model behavior. Empirically, EBD outperforms baselines across five models and six benchmarks, improving Qwen3-8B-Base on AlpacaEval2.0 from 8.8 to 44.5, reducing Mistral-7B Math500 latency by 18.9x relative to prior decoding work, and remaining robust to reward-model size.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩に伴い、事前学習されたLLMの能力を確実に評価することがますます重要になっている。
課題は、ベースとなる事前訓練されたモデルが次のトーケン予測に最適化されていることであり、多くの場合、標準的なプロンプトと直接復号化の下で、指示に従うことや、十分に整形された回答が得られないことである。
結果として、ベンチマークパフォーマンスは、タスク指向のアウトプットを生成するためにデコードによって引き起こされた失敗を伴うモデル能力を説明することができる一方で、そのような振る舞いを明らかにすることは、しばしばコストのかかるポストトレーニングに依存する。
近年のデコード専用手法は出力分布を再生成しようとするが、そのような手法は非効率であり、オープンなタスクにまたがって脆弱である。
これらの制約に対処するために,フリーかつ報酬誘導型フレームワークであるEnergy-Based Decoding (EBD)を提案する。
EBDは、外部の軽量報酬モデルでデコードを強化し、報奨型目標分布を通じて事前訓練されたモデルに固定しつつ、高実用性対応に向けて世代を操る。
EBDは、ベースモデル出力をより指示追従行動にシフトし、訓練後と行動の類似性を高め、より公平な事前学習モデル動作の推論時間評価を可能にする。
EBDは5つのモデルと6つのベンチマークでベースラインを上回り、AlpacaEval2.0のQwen3-8Bベースを8.8から44.5に改善した。
関連論文リスト
- On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - Pioneer Agent: Continual Improvement of Small Language Models in Production [6.452260317191361]
小さな言語モデルは、低コスト、高速な推論、特殊化の容易さのために、製品展開にとって魅力的なものだ。
特定のタスクに小さな言語モデルを適用するプロセスを自動化するクローズドループシステムであるPioneer Agentを提案する。
論文 参考訳(メタデータ) (2026-04-10T18:13:09Z) - RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training [59.493415006017635]
事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
論文 参考訳(メタデータ) (2026-02-13T12:56:31Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [42.608899417822656]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。