論文の概要: Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- arxiv url: http://arxiv.org/abs/2505.17288v1
- Date: Thu, 22 May 2025 21:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.69565
- Title: Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- Title(参考訳): Best-of-N vs. Supervised Fine-Tuning for Bit String Generation
- Authors: Seamus Somerstep, Vinod Raman, Unique Subedi, Yuekai Sun,
- Abstract要約: 理論的には、大きな言語モデルを新しいタスクに適応させる2つの方法を比較する。
教師付き微調整は、学習設定が実現可能であればBoNより優れている。
実現可能性が失敗した場合、障害モードに依存するため、BoNはより優れた収束率を得ることができる。
- 参考スコア(独自算出の注目度): 18.735020493881006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using the bit string generation problem as a case study, we theoretically compare two standard methods for adapting large language models to new tasks. The first, referred to as supervised fine-tuning, involves training a new next token predictor on good generations. The second method, Best-of-N, trains a reward model to select good responses from a collection generated by an unaltered base model. If the learning setting is realizable, we find that supervised fine-tuning outperforms BoN through a better dependence on the response length in its rate of convergence. If realizability fails, then depending on the failure mode, BoN can enjoy a better rate of convergence in either n or a rate of convergence with better dependence on the response length.
- Abstract(参考訳): ビット列生成問題をケーススタディとして、我々は大きな言語モデルを新しいタスクに適応させる2つの標準手法を理論的に比較した。
教師付き微調整と呼ばれる最初のものは、良い世代に新しいトークン予測器を訓練することを含む。
2つ目の方法であるBest-of-Nは、未修正のベースモデルによって生成されたコレクションから良い応答を選択するために報酬モデルを訓練する。
学習条件が実現可能であれば、教師付き微調整は、その収束率の応答長により良い依存により、BoNより優れていることが分かる。
実現可能性が失敗した場合、失敗モードに依存すると、BoNは応答長により依存したnまたは収束率のいずれにおいてもより良い収束率を得ることができる。
関連論文リスト
- Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。
ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。
本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文 参考訳(メタデータ) (2025-03-03T11:21:01Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Variational Best-of-N Alignment [57.617866305771756]
Best-of-N(Best-of-N)は、言語モデルを人間の好みに合わせるアルゴリズムである。
推論時にBoNが行うことを模倣するために、言語モデルを微調整することを提案する。
我々のアプローチは平均場変分推論に類似しており、従ってそれを変分BoN(vBoN)と呼ぶ。
論文 参考訳(メタデータ) (2024-07-08T15:59:44Z) - Regularized Best-of-N Sampling with Minimum Bayes Risk Objective for Language Model Alignment [7.349727826230864]
報奨モデルを用いたBest-of-N(BoN)サンプリングは、復号時の人間の嗜好に合わせてLLM(Large Language Models)を調整するための効果的な戦略であることが示されている。
報酬モデルは真の目的に対する不完全なプロキシであるため、その価値を過度に最適化することは、真の目的に対するパフォーマンスを損なう可能性がある。
本稿では,最小ベイズリスク(MBR)目標を近接正規化項として組み込むことで,推論時の報酬ハッキングを緩和することを目的としたBoNの変種を提案する。
論文 参考訳(メタデータ) (2024-04-01T11:26:50Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。