論文の概要: Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
- arxiv url: http://arxiv.org/abs/2406.15193v4
- Date: Mon, 8 Jul 2024 13:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 01:00:13.598121
- Title: Reward Steering with Evolutionary Heuristics for Decoding-time Alignment
- Title(参考訳): 復号時間アライメントのための進化的ヒューリスティックスを用いたリワードステアリング
- Authors: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria,
- Abstract要約: 報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にして問題を解決する。
これを改善するために、これらの2つの側面を分離し、進化的な方法で実装します。
実証的な証拠は、この戦略が多くの選好最適化や復号時間アライメントアプローチより優れていることを示している。
- 参考スコア(独自算出の注目度): 26.74423959059313
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The widespread applicability and increasing omnipresence of LLMs have instigated a need to align LLM responses to user and stakeholder preferences. Many preference optimization approaches have been proposed that fine-tune LLM parameters to achieve good alignment. However, such parameter tuning is known to interfere with model performance on many tasks. Moreover, keeping up with shifting user preferences is tricky in such a situation. Decoding-time alignment with reward model guidance solves these issues at the cost of increased inference time. However, most of such methods fail to strike the right balance between exploration and exploitation of reward -- often due to the conflated formulation of these two aspects - to give well-aligned responses. To remedy this we decouple these two aspects and implement them in an evolutionary fashion: exploration is enforced by decoding from mutated instructions and exploitation is represented as the periodic replacement of poorly-rewarded generations with well-rewarded ones. Empirical evidences indicate that this strategy outperforms many preference optimization and decode-time alignment approaches on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Our implementation will be available at: https://darwin-alignment.github.io.
- Abstract(参考訳): LLMの広範な適用性と全義性の向上は、LLMの反応をユーザやステークホルダーの好みに合わせる必要性を示唆している。
良好なアライメントを実現するために、微調整LDMパラメータを最適化する多くの最適化手法が提案されている。
しかし、そのようなパラメータチューニングは多くのタスクにおけるモデル性能に干渉することが知られている。
さらに、このような状況では、ユーザの好みの変化に追随するのは難しい。
報酬モデルガイダンスによる復号時間アライメントは、推論時間の増加を犠牲にしてこれらの問題を解決する。
しかし、そのような手法のほとんどは、探索と報酬の搾取の間に適切なバランスを取らない(多くの場合、これら2つの側面が混ざった定式化のために)。
この2つの側面を分離し、進化的な方法で実装する: 探索は、変更された命令から復号することで実施され、搾取は、不利益な世代を、よく回復した世代に周期的に置き換えるものとして表現される。
実証的な証拠は、この戦略が広く受け入れられている2つのアライメントベンチマークAlpacaEval 2 と MT-Bench において、多くの選好最適化とデコードタイムアライメントアプローチより優れていることを示している。
私たちの実装は、https://darwin-alignment.github.io.comで利用可能です。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Optimal estimation of Gaussian (poly)trees [25.02920605955238]
分布学習(KL距離)と構造学習(正確な回復)の両問題を考察する。
最初のアプローチはChow-Liuアルゴリズムに基づいており、最適な木構造分布を効率的に学習する。
第2のアプローチは、制約に基づく構造学習のための条件付き独立試験器として部分相関を用いたポリツリーに対するPCアルゴリズムの修正である。
論文 参考訳(メタデータ) (2024-02-09T12:58:36Z) - Comprehensive OOD Detection Improvements [46.46252643210326]
このタスクのために、アウト・オブ・ディストリビューション(OOD)検出手法が作成されている。
我々は,時間的高速化と性能向上の両面において,特徴埋め込みの次元的削減を表現ベース手法に適用する。
提案手法の有効性を,OpenOODv1.5ベンチマークフレームワーク上で実証する。
論文 参考訳(メタデータ) (2024-01-18T18:05:35Z) - Constructing Tree-based Index for Efficient and Effective Dense
Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。
我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。
実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-24T09:25:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。