Fugu-MT 論文翻訳(概要): Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

論文の概要: Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

arxiv url: http://arxiv.org/abs/2602.18292v1
Date: Fri, 20 Feb 2026 15:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.363647
Title: Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers
Title（参考訳）: 確率単純度最適化としての復号:トップKからトップP(ヌクレウス)、ベストオブKサンプリング
Authors: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar,
Abstract要約: 復号化は、原則化された最適化レイヤとして理解されるべきである、と私たちは主張する。この単一のテンプレートは、特別なケースとしてgreedyデコーディング、Softmaxサンプリング、Top-K、Top-P、Sparsemaxスタイルのスパーシリティを回復する。例えば,MATH500のQwen2.5-Math-7Bを高サンプリング温度で+18.6%の精度で精度を向上できることを示す。
参考スコア（独自算出の注目度）: 14.647624238539777
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.
Abstract（参考訳）: 復号化は言語モデルとそれに関するすべてのことの間に位置するが、それでもまだヒューリスティックなノブチューニングのエクササイズとして扱われている。各トークンにおいて、モデルスコアを構造的嗜好や制約と引き換えに扱う確率的単純度よりも、規則化された問題を解く。この単一のテンプレートは、特殊ケースとしてgreedy decoding、Softmax sample、Top-K、Top-P、Sparsemaxスタイルのスパーシティを復元し、最適条件を通じてそれらの共通構造を説明する。さらに重要なのは、このフレームワークによって、民間伝承なしで新しいデコーダを簡単に発明できることだ。本稿は,マルチサンプルパイプライン(自己整合性,再ランク付け,検証者選択)を対象としたKL-anchoredカバレッジ対象であるBest-of-K(BoK)を設計することによって,これを実証する。 BoKは、固定されたKサンプル予算内で良い選択肢をカバーし、経験的パフォーマンスを向上させる確率を目標としている。例えば,MATH500のQwen2.5-Math-7Bを高サンプリング温度で+18.6%の精度で精度を向上できることを示す。

関連論文リスト

Inference-Time Chain-of-Thought Pruning with Latent Informativeness Signals [6.5422130090856925]
セルフトランケーションBest-of-N (ST-BoN) は、未進行の経路を早期に切り離すことによってこれを緩和する。本稿では,KL-Adjusted Pruned Path Algorithm (KAPPA)を提案する。
論文参考訳（メタデータ） (2025-11-01T20:41:22Z)
CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。 MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文参考訳（メタデータ） (2025-10-17T14:04:37Z)
Best of mini-N in-loop Sampling: A Contextual Quality Reward Model for Reliable and Efficient Best-of-N Sampling [0.14323566945483493]
ベスト・オブ・Nサンプリングのような現代の選好アライメント技術は、ペア比較データで訓練された報酬モデルに依存している。この重要な信頼性ギャップに対処するために、新しいデータ収集およびモデリングフレームワークを導入します。また,アライメントガードレールとして調整した場合,信頼性障害を70%低減し,推論アクセラレータとして調整した場合,平均推定速度を22%以上向上することを示した。
論文参考訳（メタデータ） (2025-10-05T08:23:08Z)
Foundations of Top-$k$ Decoding For Language Models [19.73575905188064]
我々は、トップ$kの復号化を説明・一般化する理論的枠組みを開発する。大規模な分岐に対して効率的に最適化する方法を示す。
論文参考訳（メタデータ） (2025-05-25T23:46:34Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文参考訳（メタデータ） (2025-03-07T08:41:53Z)
UniCBE: An Uniformity-driven Comparing Based Evaluation Framework with Unified Multi-Objective Optimization [19.673388630963807]
統一統一性駆動型CBEフレームワークUniCBEを提案する。 AlpacaEvalベンチマークでは、UniCBEは評価予算の17%以上を削減し、Pearsonと地上の真実との相関は0.995を超えている。新しいモデルが継続的に導入されるシナリオでは、UniCBEは評価コストの50%以上を節約できる。
論文参考訳（メタデータ） (2025-02-17T05:28:12Z)
InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-27T18:45:36Z)
Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。 AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文参考訳（メタデータ） (2022-09-03T11:09:13Z)
Conditional Poisson Stochastic Beam Search [35.60062127942947]
条件付きポアソンビームサーチ(CPSBS)は、Coolらによる2019年のビームサーチ(SBS)より自然な代替品である。 CPSBSはSBSよりも低い分散とより効率的な推定器を生成し、高いエントロピー設定の改善を示す。
論文参考訳（メタデータ） (2021-09-22T20:49:16Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Least Squares Regression with Markovian Data: Fundamental Limits and Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-16T04:26:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。