論文の概要: Advancing Process Verification for Large Language Models via Tree-Based Preference Learning
- arxiv url: http://arxiv.org/abs/2407.00390v1
- Date: Sat, 29 Jun 2024 10:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:25:29.415267
- Title: Advancing Process Verification for Large Language Models via Tree-Based Preference Learning
- Title(参考訳): 木に基づく選好学習による大規模言語モデルのプロセス検証
- Authors: Mingqian He, Yongliang Shen, Wenqi Zhang, Zeqi Tan, Weiming Lu,
- Abstract要約: Tree-based Preference Learning Verifier (Tree-PLV) は、最優先探索アルゴリズムを用いて推論木を構築し、優先訓練のためにステップレベルのペアデータを収集する新しいアプローチである。
我々は,木-PLVを算術的および常識的推論タスクの範囲で実証的に評価し,既存のベンチマークを著しく上回る結果を得た。
- 参考スコア(独自算出の注目度): 23.63889344974957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable potential in handling complex reasoning tasks by generating step-by-step rationales.Some methods have proven effective in boosting accuracy by introducing extra verifiers to assess these paths. However, existing verifiers, typically trained on binary-labeled reasoning paths, fail to fully utilize the relative merits of intermediate steps, thereby limiting the effectiveness of the feedback provided. To overcome this limitation, we propose Tree-based Preference Learning Verifier (Tree-PLV), a novel approach that constructs reasoning trees via a best-first search algorithm and collects step-level paired data for preference training. Compared to traditional binary classification, step-level preferences more finely capture the nuances between reasoning steps, allowing for a more precise evaluation of the complete reasoning path. We empirically evaluate Tree-PLV across a range of arithmetic and commonsense reasoning tasks, where it significantly outperforms existing benchmarks. For instance, Tree-PLV achieved substantial performance gains over the Mistral-7B self-consistency baseline on GSM8K (67.55% to 82.79%), MATH (17.00% to 26.80%), CSQA (68.14% to 72.97%), and StrategyQA (82.86% to 83.25%).Additionally, our study explores the appropriate granularity for applying preference learning, revealing that step-level guidance provides feedback that better aligns with the evaluation of the reasoning process.
- Abstract(参考訳): 大規模言語モデル (LLM) は, ステップ・バイ・ステップの合理性を生成することによって複雑な推論タスクを扱う上で, 顕著な可能性を示した。
しかしながら、既存の検証器は二項ラベルの推論経路で訓練されるが、中間ステップの相対的な利点を十分に活用することができず、提供されたフィードバックの有効性が制限される。
この制限を克服するために、最良探索アルゴリズムを用いて推論木を構築する新しい手法であるTree-PLV(Tree-PLV)を提案する。
従来の二項分類と比較して、ステップレベルの選好は推論ステップ間のニュアンスをより細かく捉え、完全な推論パスをより正確に評価することができる。
我々は,木-PLVを算術的および常識的推論タスクの範囲で実証的に評価し,既存のベンチマークを著しく上回る結果を得た。
例えば、Tree-PLVは、GSM8K (67.55% - 82.79%)、MATH (17.00% - 26.80%)、CSQA (68.14% - 72.97%)、StrategyQA (82.86% - 83.25%) でのMistral-7Bの自己整合性ベースラインに対して、大幅なパフォーマンス向上を達成した。
さらに,選好学習に適用する上での適切な粒度について検討し,ステップレベルのガイダンスが推論プロセスの評価に適合するフィードバックを提供することを明らかにした。
関連論文リスト
- Language Model Preference Evaluation with Multiple Weak Evaluators [78.53743237977677]
GED(Preference Graph Ensemble and Denoise)は、複数のモデルベースの評価器を活用して嗜好グラフを構築する新しいアプローチである。
GEDは,モデルランキング,応答選択,モデルアライメントタスクにおいて,ベースライン手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-14T01:57:25Z) - ReGenesis: LLMs can Grow into Reasoning Generalists via Self-Improvement [70.09541267910974]
学習後の大規模言語モデル (LLM) は推論能力を高めることができる。
既存の自己合成手法は、一般化の貧弱さからドメイン外推論(OOD)タスクに悩まされる。
本稿では,学習後データとして推論経路を自己合成する手法であるSelf-Improvement (ReGenesis) による推論ジェネリストを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:09:15Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Calibrating LLMs with Preference Optimization on Thought Trees for Generating Rationale in Science Question Scoring [16.38771834692938]
より忠実な論理を生成できる新しいフレームワークを提案し、さらに重要なことに、ブラックボックススコアリングシステムと性能をマッチングする。
まず,Large Language Models (LLM) をクエリして思考木を生成することで,人間の評価プロセスを模倣する。
次に、各思考木経路から中間的評価決定を要約し、合成的合理性データと合理性選好データを作成する。
論文 参考訳(メタデータ) (2024-06-28T14:33:05Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K, AQuA-RAT, ARC ベンチマークの精度が向上する。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees [37.297431187924765]
決定木から抽出した選好データに基づく推論軌道最適化フレームワークを提案する。
提案実験により, TP-LLaMAは, 推定木における誤差から洞察を得ることにより, ベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-11T10:00:18Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。