Fugu-MT 論文翻訳(概要): Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment

論文の概要: Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment

arxiv url: http://arxiv.org/abs/2410.20727v1
Date: Mon, 28 Oct 2024 04:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.145533
Title: Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment
Title（参考訳）: より高速なWIND: LLMアライメントのための反復的Best-of-N$蒸留の高速化
Authors: Tong Yang, Jincheng Mei, Hanjun Dai, Zixin Wen, Shicong Cen, Dale Schuurmans, Yuejie Chi, Bo Dai,
Abstract要約: 本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
参考スコア（独自算出の注目度）: 81.84950252537618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in aligning large language models with human preferences have corroborated the growing importance of best-of-N distillation (BOND). However, the iterative BOND algorithm is prohibitively expensive in practice due to the sample and computation inefficiency. This paper addresses the problem by revealing a unified game-theoretic connection between iterative BOND and self-play alignment, which unifies seemingly disparate algorithmic paradigms. Based on the connection, we establish a novel framework, WIN rate Dominance (WIND), with a series of efficient algorithms for regularized win rate dominance optimization that approximates iterative BOND in the parameter space. We provides provable sample efficiency guarantee for one of the WIND variant with the square loss objective. The experimental results confirm that our algorithm not only accelerates the computation, but also achieves superior sample efficiency compared to existing methods.
Abstract（参考訳）: 大規模言語モデルと人間の嗜好の整合化の最近の進歩は、ベスト・オブ・N蒸留(BOND)の重要性の高まりを裏付けている。しかし, 繰り返しBONDアルゴリズムは, サンプルと計算不効率のため, 実際には非常に高価である。本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにすることでこの問題に対処する。この接続に基づいて、パラメータ空間における反復的BONDを近似する正規化利率支配最適化のための一連の効率的なアルゴリズムを用いて、WINレート支配(WIND)という新しいフレームワークを確立する。 We provide provable sample efficiency guarantee for one of the WIND variant with the square loss objective。実験結果から,本アルゴリズムは計算を高速化するだけでなく,既存の手法よりも優れたサンプル効率を実現することが確認された。

関連論文リスト

Towards minimax optimal algorithms for Active Simple Hypothesis Testing [0.0]
固定予算ベストアーム識別問題の簡易な変種である能動簡易仮説テスト(ASHT)問題について検討した。 ASHT問題の上界の新たなゲーム理論の定式化を提供する。本稿では,前処理に比べて計算能力に優れた近似アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-26T20:03:53Z)
Enhanced Derivative-Free Optimization Using Adaptive Correlation-Induced Finite Difference Estimators [6.054123928890574]
勾配推定効率とサンプル効率の両面からDFOを向上させるアルゴリズムを開発した。提案アルゴリズムの整合性を確立し,反復毎にサンプルのバッチを用いても,KW法やSPSA法と同じ収束率が得られることを示した。
論文参考訳（メタデータ） (2025-02-28T08:05:54Z)
Towards Optimal Multi-draft Speculative Decoding [102.67837141152232]
MDSD(Multi-Draft Speculative Decoding)は、各トークンを生成する際に、小さなドラフトモデルで複数のドラフトを生成する手法である。本稿では、最適輸送問題の双対性について論じ、最適受容率を効率的に計算する方法を提供する。
論文参考訳（メタデータ） (2025-02-26T03:22:44Z)
Fast sparse optimization via adaptive shrinkage [0.6226609932118122]
本稿では,対数正規化に基づく近似法を開発し,反復的縮小保持アルゴリズムであることが判明した。この適応性はアルゴリズムの軌道を大幅に促進し、より高速な収束をもたらす。我々は,その高速収束を数値実験により検証し,最先端アルゴリズムの性能について考察する。
論文参考訳（メタデータ） (2025-01-21T15:58:21Z)
A novel algorithm for optimizing bundle adjustment in image sequence alignment [6.322876598831792]
本稿では,低温電子トモグラフィーにおける画像シーケンスアライメントの文脈におけるバンドル調整(BA)モデルを最適化するための新しいアルゴリズムを提案する。アルゴリズムの性能を評価するために、合成データセットと実世界のデータセットの両方に関する大規模な実験を行った。
論文参考訳（メタデータ） (2024-11-10T03:19:33Z)
Provably Faster Algorithms for Bilevel Optimization via Without-Replacement Sampling [96.47086913559289]
勾配に基づくアルゴリズムはバイレベル最適化に広く用いられている。本研究では,より高速な収束率を実現する非置換サンプリングに基づくアルゴリズムを提案する。合成および実世界の両方のアプリケーションに対してアルゴリズムを検証する。
論文参考訳（メタデータ） (2024-11-07T17:05:31Z)
Sample-efficient Bayesian Optimisation Using Known Invariances [56.34916328814857]
バニラと制約付きBOアルゴリズムは、不変目的を最適化する際の非効率性を示す。我々はこれらの不変カーネルの最大情報ゲインを導出する。核融合炉用電流駆動システムの設計に本手法を用い, 高性能溶液の探索を行った。
論文参考訳（メタデータ） (2024-10-22T12:51:46Z)
BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文参考訳（メタデータ） (2024-07-19T18:38:25Z)
An Algebraically Converging Stochastic Gradient Descent Algorithm for Global Optimization [14.336473214524663]
アルゴリズムの主要な構成要素は、目的関数の値に基づくランダム性である。アルゴリズムの収束を代数学で証明し、パラメータ空間でチューニングする。アルゴリズムの効率性とロバスト性を示す数値的な例をいくつか提示する。
論文参考訳（メタデータ） (2022-04-12T16:27:49Z)
Batch Sequential Adaptive Designs for Global Optimization [5.825138898746968]
効率的なグローバル最適化(EGO)は、高価なブラックボックス最適化問題に対する最も一般的なSAD手法の1つである。これらの複数点のEGO法では、重い計算とポイントのクラスタリングが障害となる。本研究では, 改良されたサンプリング/インポータンス・リサンプリング(SIR)法を用いて, 「加速EGO」と呼ばれる新しいバッチSAD法を転送する。提案したSADの効率は,次元が2～12の9つの古典的テスト関数によって検証される。
論文参考訳（メタデータ） (2020-10-21T01:11:35Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。本研究の結果は, 同時一次および二重側収束の形で表される。
論文参考訳（メタデータ） (2020-08-23T20:36:49Z)
A High-Performance Object Proposals based on Horizontal High Frequency Signal [0.0]
クラスに依存しないオブジェクト提案アルゴリズム BIHL を提案する。ウィンドウスコアとスーパーピクセルマージの利点を組み合わせることで、ローカライズ品質が向上するだけでなく、計算効率も向上する。本手法は,種々の障害に対して高い再現性を実現する手法の中で,最も高い再現性を有する手法である。
論文参考訳（メタデータ） (2020-03-13T05:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。