論文の概要: Iterative Reasoning Preference Optimization
- arxiv url: http://arxiv.org/abs/2404.19733v1
- Date: Tue, 30 Apr 2024 17:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:16:41.291713
- Title: Iterative Reasoning Preference Optimization
- Title(参考訳): 反復推論選好最適化
- Authors: Richard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston,
- Abstract要約: 生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
我々は、修正されたDPO損失を、追加の負の対数類似項でトレーニングする。
GSM8KではLlama-2-70B-Chatが55.6%から81.6%に向上した。
- 参考スコア(独自算出の注目度): 84.15992372132507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative preference optimization methods have recently been shown to perform well for general instruction tuning tasks, but typically make little improvement on reasoning tasks (Yuan et al., 2024, Chen et al., 2024). In this work we develop an iterative approach that optimizes the preference between competing generated Chain-of-Thought (CoT) candidates by optimizing for winning vs. losing reasoning steps that lead to the correct answer. We train using a modified DPO loss (Rafailov et al., 2023) with an additional negative log-likelihood term, which we find to be crucial. We show reasoning improves across repeated iterations of this scheme. While only relying on examples in the training set, our approach results in increasing accuracy for Llama-2-70B-Chat from 55.6% to 81.6% on GSM8K (and 88.7% with majority voting out of 32 samples), from 12.5% to 20.8% on MATH, and from 77.8% to 86.7% on ARC-Challenge, which outperforms other Llama-2-based models not relying on additionally sourced datasets.
- Abstract(参考訳): 反復的選好最適化法は、最近、一般的な命令チューニングタスクに対してうまく機能することが示されているが、推論タスクにはほとんど改善がない(Yuan et al , 2024, Chen et al , 2024)。
本研究は、競合する生成したChain-of-Thought(CoT)候補間の選好を最適化する反復的アプローチを開発する。
我々は、修正DPO損失(Rafailov et al , 2023)を、追加の負の対数類似項でトレーニングする。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
Llama-2-70B-Chatの精度は55.6%から81.6%に向上し、GSM8Kでは88.7%、MATHでは12.5%から20.8%、ARC-Challengeでは77.8%から86.7%に向上した。
関連論文リスト
- Preference Optimization for Reasoning with Pseudo Feedback [100.62603571434167]
提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
論文 参考訳(メタデータ) (2024-11-25T12:44:02Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K, AQuA-RAT, ARC ベンチマークの精度が向上する。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Reward Model Ensembles Help Mitigate Overoptimization [7.715463015544845]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルを微調整して指示に従うための標準手法である。
真の」報酬の完全な表現として、学習された報酬モデルは過度に最適化される。
論文 参考訳(メタデータ) (2023-10-04T11:34:22Z) - Provable Stochastic Optimization for Global Contrastive Learning: Small
Batch Does Not Harm Performance [53.49803579981569]
各正の対と全ての負の対をアンカーポイントで対比する、コントラスト学習のグローバルな目的を考える。
SimCLRのような既存のメソッドは、十分な結果を得るために大きなバッチサイズを必要とする。
本稿では,SogCLRという表現のグローバルコントラスト学習を解くためのメモリ効率の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-24T22:16:53Z) - Predict and Optimize: Through the Lens of Learning to Rank [9.434400627011108]
ノイズコントラスト推定は、ソリューションキャッシュのランク付けを学習する場合とみなすことができる。
また、最適化問題を解くことなく、閉じた形で区別できるペアワイズとリストワイズランキングの損失関数も開発する。
論文 参考訳(メタデータ) (2021-12-07T10:11:44Z) - RSO: A Novel Reinforced Swarm Optimization Algorithm for Feature
Selection [0.0]
本稿では,Reinforced Swarm Optimization (RSO) という特徴選択アルゴリズムを提案する。
このアルゴリズムは、広く使われているBee Swarm Optimization (BSO)アルゴリズムとReinforcement Learning (RL)アルゴリズムを組み込んで、優れた検索エージェントの報酬を最大化し、劣悪なエージェントを罰する。
提案手法は、バランスの取れたデータと不均衡なデータの完全なブレンドを含む、広く知られている25のUCIデータセットで評価される。
論文 参考訳(メタデータ) (2021-07-29T17:38:04Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。