論文の概要: Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment
- arxiv url: http://arxiv.org/abs/2410.20727v1
- Date: Mon, 28 Oct 2024 04:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:17:50.631091
- Title: Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment
- Title(参考訳): より高速なWIND: LLMアライメントのための反復的Best-of-N$蒸留の高速化
- Authors: Tong Yang, Jincheng Mei, Hanjun Dai, Zixin Wen, Shicong Cen, Dale Schuurmans, Yuejie Chi, Bo Dai,
- Abstract要約: 本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
- 参考スコア(独自算出の注目度): 81.84950252537618
- License:
- Abstract: Recent advances in aligning large language models with human preferences have corroborated the growing importance of best-of-N distillation (BOND). However, the iterative BOND algorithm is prohibitively expensive in practice due to the sample and computation inefficiency. This paper addresses the problem by revealing a unified game-theoretic connection between iterative BOND and self-play alignment, which unifies seemingly disparate algorithmic paradigms. Based on the connection, we establish a novel framework, WIN rate Dominance (WIND), with a series of efficient algorithms for regularized win rate dominance optimization that approximates iterative BOND in the parameter space. We provides provable sample efficiency guarantee for one of the WIND variant with the square loss objective. The experimental results confirm that our algorithm not only accelerates the computation, but also achieves superior sample efficiency compared to existing methods.
- Abstract(参考訳): 大規模言語モデルと人間の嗜好の整合化の最近の進歩は、ベスト・オブ・N蒸留(BOND)の重要性の高まりを裏付けている。
しかし, 繰り返しBONDアルゴリズムは, サンプルと計算不効率のため, 実際には非常に高価である。
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにすることでこの問題に対処する。
この接続に基づいて、パラメータ空間における反復的BONDを近似する正規化利率支配最適化のための一連の効率的なアルゴリズムを用いて、WINレート支配(WIND)という新しいフレームワークを確立する。
We provide provable sample efficiency guarantee for one of the WIND variant with the square loss objective。
実験結果から,本アルゴリズムは計算を高速化するだけでなく,既存の手法よりも優れたサンプル効率を実現することが確認された。
関連論文リスト
- A novel algorithm for optimizing bundle adjustment in image sequence alignment [6.322876598831792]
本稿では,低温電子トモグラフィーにおける画像シーケンスアライメントの文脈におけるバンドル調整(BA)モデルを最適化するための新しいアルゴリズムを提案する。
アルゴリズムの性能を評価するために、合成データセットと実世界のデータセットの両方に関する大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-10T03:19:33Z) - Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。
本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。
合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文 参考訳(メタデータ) (2024-11-07T17:05:31Z) - Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。
我々はこれらの不変カーネルの最大情報ゲインを導出する。
核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文 参考訳(メタデータ) (2024-10-22T12:51:46Z) - BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - An Algebraically Converging Stochastic Gradient Descent Algorithm for
Global Optimization [14.336473214524663]
アルゴリズムの主要な構成要素は、目的関数の値に基づくランダム性である。
アルゴリズムの収束を代数学で証明し、パラメータ空間でチューニングする。
アルゴリズムの効率性とロバスト性を示す数値的な例をいくつか提示する。
論文 参考訳(メタデータ) (2022-04-12T16:27:49Z) - Batch Sequential Adaptive Designs for Global Optimization [5.825138898746968]
効率的なグローバル最適化(EGO)は、高価なブラックボックス最適化問題に対する最も一般的なSAD手法の1つである。
これらの複数点のEGO法では、重い計算とポイントのクラスタリングが障害となる。
本研究では, 改良されたサンプリング/インポータンス・リサンプリング(SIR)法を用いて, 「加速EGO」と呼ばれる新しいバッチSAD法を転送する。
提案したSADの効率は,次元が2~12の9つの古典的テスト関数によって検証される。
論文 参考訳(メタデータ) (2020-10-21T01:11:35Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - A High-Performance Object Proposals based on Horizontal High Frequency
Signal [0.0]
クラスに依存しないオブジェクト提案アルゴリズム BIHL を提案する。
ウィンドウスコアとスーパーピクセルマージの利点を組み合わせることで、ローカライズ品質が向上するだけでなく、計算効率も向上する。
本手法は,種々の障害に対して高い再現性を実現する手法の中で,最も高い再現性を有する手法である。
論文 参考訳(メタデータ) (2020-03-13T05:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。