論文の概要: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
- arxiv url: http://arxiv.org/abs/2510.26219v1
- Date: Thu, 30 Oct 2025 07:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.703535
- Title: Test-Time Alignment of LLMs via Sampling-Based Optimal Control in pre-logit space
- Title(参考訳): サンプリングベース最適制御によるプレロジット空間におけるLCMのテスト時間アライメント
- Authors: Sekitoshi Kanai, Tsukasa Yoshida, Hiroshi Takahashi, Haru Kuroki, Kazumune Hashimoto,
- Abstract要約: AISP(Adaptive importance sample on pre-logits)と呼ばれる新しいテスト時間アライメント手法を提案する。
AISPは、摂動の平均について期待される報酬を最大化するために、この摂動を暗黙の層から出力するプリロジットに適用する。
AISPは、使用済みサンプルの数よりも報奨の点で最高のサンプリング性能を発揮し、他の報奨ベースのテスト時間アライメント方法よりも高い報酬を達成する。
- 参考スコア(独自算出の注目度): 15.104280833614157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time alignment of large language models (LLMs) attracts attention because fine-tuning LLMs requires high computational costs. In this paper, we propose a new test-time alignment method called adaptive importance sampling on pre-logits (AISP) on the basis of the sampling-based model predictive control with the stochastic control input. AISP applies the Gaussian perturbation into pre-logits, which are outputs of the penultimate layer, so as to maximize expected rewards with respect to the mean of the perturbation. We demonstrate that the optimal mean is obtained by importance sampling with sampled rewards. AISP outperforms best-of-n sampling in terms of rewards over the number of used samples and achieves higher rewards than other reward-based test-time alignment methods.
- Abstract(参考訳): 大規模言語モデル(LLM)のテスト時間アライメントは、微調整 LLM が高い計算コストを必要とするため注目される。
本稿では,確率的制御入力を用いたサンプリングベースモデル予測制御に基づいて,AISP(Adaptive importance sample on pre-logits)と呼ばれる新しいテスト時間アライメント手法を提案する。
AISPはガウス摂動を前論理に応用し、これは直列層の出力であり、摂動の平均に関して期待される報酬を最大化する。
本研究は,サンプル報酬を用いた重要サンプリングにより最適な平均値が得られることを示す。
AISPは、使用済みサンプルの数よりも報奨の点で最高のサンプリング性能を発揮し、他の報奨ベースのテスト時間アライメント方法よりも高い報酬を達成する。
関連論文リスト
- G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Reward-Shifted Speculative Sampling Is An Efficient Test-Time Weak-to-Strong Aligner [24.152878302325508]
提案手法では,対象モデルが変わらず,ヒトの嗜好に沿うような,報酬シフト型投機的サンプリング(SSS)アルゴリズムを導入する。
本アルゴリズムは, 試験時間低強度アライメント実験において, 推定コストを著しく低減し, 優れた金報酬スコアを得る。
論文 参考訳(メタデータ) (2025-08-20T20:10:56Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models [26.211711150915203]
$Psi$-Samplerは、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークである。
スコアベース生成モデルとの推論時間報酬アライメントは、大きな注目を集めている。
論文 参考訳(メタデータ) (2025-06-02T05:02:33Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Boost Test-Time Performance with Closed-Loop Inference [85.43516360332646]
そこで本研究では,モデル性能を高めるために,ループ方式でハードクラス化試験サンプルを予測することを提案する。
まず、追加の推論ループを必要とするハードクラス化テストサンプルを識別するためにフィルタリング基準を考案する。
各ハードサンプルに対して、モデルのキャリブレーションを行うために、元の上位$K$予測に基づいて補助学習タスクを構築する。
論文 参考訳(メタデータ) (2022-03-21T10:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。