論文の概要: TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2410.16033v1
- Date: Fri, 18 Oct 2024 04:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:21:56.411597
- Title: TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling
- Title(参考訳): TreeBoN: 投機的ツリー探索とベストオブNサンプリングによる推論時間アライメントの強化
- Authors: Jiahao Qiu, Yifu Lu, Yifan Zeng, Jiacheng Guo, Jiayi Geng, Huazheng Wang, Kaixuan Huang, Yue Wu, Mengdi Wang,
- Abstract要約: 推論時アライメントは、追加のトレーニングや微調整を必要とせずに、大きな言語モデルの性能を向上させる。
Best-of-N (BoN) サンプリングは、単純だが強力なアプローチであり、複数のレスポンスを生成し、最良のものを選択する。
我々は、投機的木探索戦略をBest-of-N(BoN)サンプリングに統合する新しいフレームワークであるTreeBoNを提案する。
- 参考スコア(独自算出の注目度): 39.019269570224004
- License:
- Abstract: Inference-time alignment enhances the performance of large language models without requiring additional training or fine-tuning but presents challenges due to balancing computational efficiency with high-quality output. Best-of-N (BoN) sampling, as a simple yet powerful approach, generates multiple responses and selects the best one, achieving improved performance but with a high computational cost. We propose TreeBoN, a novel framework that integrates a speculative tree-search strategy into Best-of-N (BoN) Sampling. TreeBoN maintains a set of parent nodes, iteratively branching and pruning low-quality responses, thereby reducing computational overhead while maintaining high output quality. Our approach also leverages token-level rewards from Direct Preference Optimization (DPO) to guide tree expansion and prune low-quality paths. We evaluate TreeBoN using AlpacaFarm, UltraFeedback, GSM8K, HH-RLHF, and TutorEval datasets, demonstrating consistent improvements. Specifically, TreeBoN achieves a 65% win rate at maximum lengths of 192 and 384 tokens, outperforming standard BoN with the same computational cost. Furthermore, TreeBoN achieves around a 60% win rate across longer responses, showcasing its scalability and alignment efficacy.
- Abstract(参考訳): 推論時アライメントは、追加のトレーニングや微調整を必要とせずに、大規模言語モデルの性能を向上させるが、計算効率と高品質な出力のバランスをとることによる課題を提示する。
Best-of-N (BoN) サンプリングは、単純だが強力なアプローチであり、複数の応答を生成し、最高の応答を選択する。
我々は、投機的木探索戦略をBest-of-N(BoN)サンプリングに統合する新しいフレームワークであるTreeBoNを提案する。
TreeBoNは、一連の親ノードを維持し、繰り返し分岐し、低品質のレスポンスをプルーニングすることで、高い出力品質を維持しながら計算オーバーヘッドを低減する。
また,DPO(Direct Preference Optimization)のトークンレベルの報酬を利用して,木の拡大と低品質パスを導出する。
AlpacaFarm、UltraFeedback、GSM8K、HH-RLHF、TutorEvalのデータセットを用いてTreeBoNを評価し、一貫した改善を示す。
具体的には、TreeBoNは最大192トークンと384トークンで65%の勝利率を達成し、同じ計算コストで標準BoNを上回っている。
さらに、TreeBoNはそのスケーラビリティとアライメントの有効性を示しながら、より長いレスポンスで60%の勝利率を達成した。
関連論文リスト
- BOND: Aligning LLMs with Best-of-N Distillation [63.254031574394965]
BOND(Best-of-N Distillation)は,Best-of-Nをエミュレートする新しいRLHFアルゴリズムである。
具体的には、BONDは、ポリシーから世代分布をBest-of-N分布に近づけるように強制する分布マッチングアルゴリズムである。
本稿では,抽象的な要約モデルとGemmaモデルの実験を通じて,提案手法の有効性といくつかの設計選択を実証する。
論文 参考訳(メタデータ) (2024-07-19T18:38:25Z) - Adaptive Split Balancing for Optimal Random Forest [8.916614661563893]
そこで本研究では,新しい適応型分割バランス法を用いて木を構築するランダムフォレストアルゴリズムを提案する。
本手法は,データから木構造を適応的に学習しながら,シンプルでスムーズなシナリオで最適性を実現する。
論文 参考訳(メタデータ) (2024-02-17T09:10:40Z) - Reinforcement Learning for Node Selection in Branch-and-Bound [52.2648997215667]
現在の最先端セレクタは手作りのアンサンブルを使用して、ナイーブなサブノードセレクタと、個々のノードデータに依存する学習ノードセレクタを自動的に切り替える。
孤立ノードではなく木の状態全体を考慮しながら強化学習(RL)を用いる新しいシミュレーション手法を提案する。
論文 参考訳(メタデータ) (2023-09-29T19:55:56Z) - ForestPrune: Compact Depth-Controlled Tree Ensembles [7.538482310185135]
我々は,個々の木から深度層を刈り取ることで,木アンサンブルを後処理する新しいフレームワークであるフォレストプルーを紹介する。
本研究では,フォレストプルーネにおける問題に対する高品質な解を効率的に得るための最適化アルゴリズムを開発した。
実験により、フォレストプルーンは既存の後処理アルゴリズムによって抽出されたモデルより優れたパシモニアスモデルを生成することを示した。
論文 参考訳(メタデータ) (2022-05-31T22:04:18Z) - bsnsing: A decision tree induction method based on recursive optimal
boolean rule composition [2.28438857884398]
本稿では,決定木帰納過程における分割規則選択を最適化するMIP(Mixed-integer Programming)の定式化を提案する。
商用の解法よりも高速に実例を解くことができる効率的な探索解法を開発した。
論文 参考訳(メタデータ) (2022-05-30T17:13:57Z) - Unbiased and Efficient Sampling of Dependency Trees [0.0]
ほとんどのツリーバンクは、すべての有効な依存ツリーがROOTノードから出てくる単一のエッジを持つ必要がある。
Zmigrodらは最近、単一ルート依存ツリーの分布から置き換えることなくサンプリングするアルゴリズムを提案している。
我々は、Wilson-RCを置換したサンプリングアルゴリズムが実際にバイアスを受けていることを示す。
論文 参考訳(メタデータ) (2022-05-25T09:57:28Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Generalized and Scalable Optimal Sparse Decision Trees [56.35541305670828]
様々な目的に対して最適な決定木を生成する手法を提案する。
また,連続変数が存在する場合に最適な結果が得られるスケーラブルなアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-06-15T19:00:11Z) - The Tree Ensemble Layer: Differentiability meets Conditional Computation [8.40843862024745]
我々は、異なる決定木(ソフトツリー)のアンサンブルからなるニューラルネットワークのための新しいレイヤを導入する。
異なる木は文学において有望な結果を示すが、典型的には条件計算をサポートしないため、訓練と推論が遅い。
我々は、空間性を利用する特殊前方及び後方伝播アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-02-18T18:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。