論文の概要: Inference Time Alignment with Reward-Guided Tree Search
- arxiv url: http://arxiv.org/abs/2406.15193v5
- Date: Tue, 26 Nov 2024 12:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:31:55.814544
- Title: Inference Time Alignment with Reward-Guided Tree Search
- Title(参考訳): 逆ガイド木探索による推論時間アライメント
- Authors: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria,
- Abstract要約: 推測時間計算手法は大規模言語モデル(LLM)の性能を向上させる
Best-of-NサンプリングやMajority Voting、木探索アルゴリズムの変種といった一般的な手法は、LLMの性能向上に有効であることが証明されている。
本稿では,報酬誘導木探索によるアライメントを実現するために,報酬モデルのガイダンスを活用する推論時アライメント手法であるDARWINを提案する。
- 参考スコア(独自算出の注目度): 26.74423959059313
- License:
- Abstract: Inference-time computation methods enhance the performance of Large Language Models (LLMs) by leveraging additional computational resources to achieve superior results. Common techniques, such as Best-of-N sampling, Majority Voting, and variants of tree-search algorithms have proven to be effective in boosting the performance of LLMs. These approaches strategically trade increased computational resources for improved model responses. In this work, we proposed DARWIN, an inference-time alignment method that leverages the guidance of a reward model to achieve alignment through a reward-guided tree search. Empirical evidences indicates that our method outperforms other inference-time alignment methods such as Best-of-N and ARGS on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Furthermore, we show that our inference-time approach achieves performance comparable to preference-tuned models on both benchmarks, highlighting the effectiveness of trading inference-time compute for enhanced performance during inference. We have released our codes at https://github.com/declare-lab/darwin.
- Abstract(参考訳): 推測時間計算法は,計算資源を付加することにより,Large Language Models (LLMs) の性能を向上させる。
Best-of-NサンプリングやMajority Voting、木探索アルゴリズムの変種といった一般的な手法は、LLMの性能向上に有効であることが証明されている。
これらのアプローチは、改良されたモデル応答のための計算資源を戦略的に取引する。
本研究では,報酬誘導木探索によるアライメントを実現するために,報酬モデルのガイダンスを活用する推論時アライメント手法であるDARWINを提案する。
実験により,本手法はAlpacaEval 2 と MT-Bench の2つの広く受け入れられているアライメントベンチマークにおいて,Best-of-N や ARGS などの他の推定時間アライメント手法よりも優れていることが示された。
さらに,提案手法は,両ベンチマークにおける選好調整モデルに匹敵する性能を達成し,推論時の性能向上のための取引推定時間計算の有効性を強調した。
コードについてはhttps://github.com/declare-lab/darwin.comで公開しています。
関連論文リスト
- Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Optimal estimation of Gaussian (poly)trees [25.02920605955238]
分布学習(KL距離)と構造学習(正確な回復)の両問題を考察する。
最初のアプローチはChow-Liuアルゴリズムに基づいており、最適な木構造分布を効率的に学習する。
第2のアプローチは、制約に基づく構造学習のための条件付き独立試験器として部分相関を用いたポリツリーに対するPCアルゴリズムの修正である。
論文 参考訳(メタデータ) (2024-02-09T12:58:36Z) - Comprehensive OOD Detection Improvements [46.46252643210326]
このタスクのために、アウト・オブ・ディストリビューション(OOD)検出手法が作成されている。
我々は,時間的高速化と性能向上の両面において,特徴埋め込みの次元的削減を表現ベース手法に適用する。
提案手法の有効性を,OpenOODv1.5ベンチマークフレームワーク上で実証する。
論文 参考訳(メタデータ) (2024-01-18T18:05:35Z) - Constructing Tree-based Index for Efficient and Effective Dense
Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。
我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。
実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-24T09:25:39Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。