論文の概要: Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- arxiv url: http://arxiv.org/abs/2505.17288v1
- Date: Thu, 22 May 2025 21:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.69565
- Title: Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- Title(参考訳): Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- Authors: Seamus Somerstep, Vinod Raman, Unique Subedi, Yuekai Sun,
- Abstract要約: 理論的には、大きな言語モデルを新しいタスクに適応させる2つの方法を比較する。
教師付き微調整は、学習設定が実現可能であればBoNより優れている。
実現可能性が失敗した場合、障害モードに依存するため、BoNはより優れた収束率を得ることができる。
- 参考スコア(独自算出の注目度): 18.735020493881006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using the bit string generation problem as a case study, we theoretically compare two standard methods for adapting large language models to new tasks. The first, referred to as supervised fine-tuning, involves training a new next token predictor on good generations. The second method, Best-of-N, trains a reward model to select good responses from a collection generated by an unaltered base model. If the learning setting is realizable, we find that supervised fine-tuning outperforms BoN through a better dependence on the response length in its rate of convergence. If realizability fails, then depending on the failure mode, BoN can enjoy a better rate of convergence in either n or a rate of convergence with better dependence on the response length.
- Abstract(参考訳): ビット列生成問題をケーススタディとして、我々は大きな言語モデルを新しいタスクに適応させる2つの標準手法を理論的に比較した。
教師付き微調整と呼ばれる最初のものは、良い世代に新しいトークン予測器を訓練することを含む。
2つ目の方法であるBest-of-Nは、未修正のベースモデルによって生成されたコレクションから良い応答を選択するために報酬モデルを訓練する。
学習条件が実現可能であれば、教師付き微調整は、その収束率の応答長により良い依存により、BoNより優れていることが分かる。
実現可能性が失敗した場合、失敗モードに依存すると、BoNは応答長により依存したnまたは収束率のいずれにおいてもより良い収束率を得ることができる。
関連論文リスト
- Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。
ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。
本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文 参考訳(メタデータ) (2025-03-03T11:21:01Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Belief Propagation Neural Networks [103.97004780313105]
信念伝播ニューラルネットワーク(BPNN)を紹介する。
BPNNは因子グラフ上で動作し、信念伝播(BP)を一般化する
BPNNはIsingモデル上で1.7倍高速に収束し、より厳密な境界を提供することを示す。
挑戦的なモデルカウント問題に関して、BPNNは最先端の手作り手法の100倍の速さを推定する。
論文 参考訳(メタデータ) (2020-07-01T07:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。