Fugu-MT 論文翻訳(概要): Inference Time Alignment with Reward-Guided Tree Search

論文の概要: Inference Time Alignment with Reward-Guided Tree Search

arxiv url: http://arxiv.org/abs/2406.15193v5
Date: Tue, 26 Nov 2024 12:13:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:39:50.198222
Title: Inference Time Alignment with Reward-Guided Tree Search
Title（参考訳）: 逆ガイド木探索による推論時間アライメント
Authors: Chia-Yu Hung, Navonil Majumder, Ambuj Mehrish, Soujanya Poria,
Abstract要約: 推測時間計算手法は大規模言語モデル(LLM)の性能を向上させる Best-of-NサンプリングやMajority Voting、木探索アルゴリズムの変種といった一般的な手法は、LLMの性能向上に有効であることが証明されている。本稿では,報酬誘導木探索によるアライメントを実現するために,報酬モデルのガイダンスを活用する推論時アライメント手法であるDARWINを提案する。
参考スコア（独自算出の注目度）: 26.74423959059313
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Inference-time computation methods enhance the performance of Large Language Models (LLMs) by leveraging additional computational resources to achieve superior results. Common techniques, such as Best-of-N sampling, Majority Voting, and variants of tree-search algorithms have proven to be effective in boosting the performance of LLMs. These approaches strategically trade increased computational resources for improved model responses. In this work, we proposed DARWIN, an inference-time alignment method that leverages the guidance of a reward model to achieve alignment through a reward-guided tree search. Empirical evidences indicates that our method outperforms other inference-time alignment methods such as Best-of-N and ARGS on two widely accepted alignment benchmarks AlpacaEval 2 and MT-Bench. Furthermore, we show that our inference-time approach achieves performance comparable to preference-tuned models on both benchmarks, highlighting the effectiveness of trading inference-time compute for enhanced performance during inference. We have released our codes at https://github.com/declare-lab/darwin.
Abstract（参考訳）: 推測時間計算法は,計算資源を付加することにより,Large Language Models (LLMs) の性能を向上させる。 Best-of-NサンプリングやMajority Voting、木探索アルゴリズムの変種といった一般的な手法は、LLMの性能向上に有効であることが証明されている。これらのアプローチは、改良されたモデル応答のための計算資源を戦略的に取引する。本研究では,報酬誘導木探索によるアライメントを実現するために,報酬モデルのガイダンスを活用する推論時アライメント手法であるDARWINを提案する。実験により,本手法はAlpacaEval 2 と MT-Bench の2つの広く受け入れられているアライメントベンチマークにおいて,Best-of-N や ARGS などの他の推定時間アライメント手法よりも優れていることが示された。さらに,提案手法は,両ベンチマークにおける選好調整モデルに匹敵する性能を達成し,推論時の性能向上のための取引推定時間計算の有効性を強調した。コードについてはhttps://github.com/declare-lab/darwin.comで公開しています。

関連論文リスト

Direct Preference Optimization with Rating Information: Practical Algorithms and Provable Gains [67.71020482405343]
評価ギャップの形で追加情報を活用するアルゴリズムを設計する方法について検討する。精度の高いレーティングギャップ情報が存在する場合,DPOよりも高速な統計的レートを実現するアルゴリズムを提案する。
論文参考訳（メタデータ） (2026-01-31T08:38:21Z)
TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。 GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文参考訳（メタデータ） (2025-06-05T15:56:38Z)
RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-03T16:16:35Z)
Distributionally Robust Reinforcement Learning with Human Feedback [13.509499718691016]
大規模言語モデルを微調整するための分散ロバストなRLHFを提案する。我々のゴールは、プロンプトの分布が著しく異なる場合でも、微調整モデルがその性能を維持することである。我々は,学習した報酬モデルの精度を平均で向上し,推論などのタスクにおいて顕著に向上することを示す。
論文参考訳（メタデータ） (2025-03-01T15:43:39Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。 DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文参考訳（メタデータ） (2024-08-21T05:09:53Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Optimal estimation of Gaussian (poly)trees [25.02920605955238]
分布学習(KL距離)と構造学習(正確な回復)の両問題を考察する。最初のアプローチはChow-Liuアルゴリズムに基づいており、最適な木構造分布を効率的に学習する。第2のアプローチは、制約に基づく構造学習のための条件付き独立試験器として部分相関を用いたポリツリーに対するPCアルゴリズムの修正である。
論文参考訳（メタデータ） (2024-02-09T12:58:36Z)
Comprehensive OOD Detection Improvements [46.46252643210326]
このタスクのために、アウト・オブ・ディストリビューション(OOD)検出手法が作成されている。我々は,時間的高速化と性能向上の両面において,特徴埋め込みの次元的削減を表現ベース手法に適用する。提案手法の有効性を,OpenOODv1.5ベンチマークフレームワーク上で実証する。
論文参考訳（メタデータ） (2024-01-18T18:05:35Z)
Constructing Tree-based Index for Efficient and Effective Dense Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文参考訳（メタデータ） (2023-04-24T09:25:39Z)
Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文参考訳（メタデータ） (2022-10-02T05:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。