論文の概要: Preference Optimization for Reasoning with Pseudo Feedback
- arxiv url: http://arxiv.org/abs/2411.16345v1
- Date: Mon, 25 Nov 2024 12:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:42.636647
- Title: Preference Optimization for Reasoning with Pseudo Feedback
- Title(参考訳): 擬似フィードバックを用いた推論の優先最適化
- Authors: Fangkai Jiao, Geyang Guo, Xingxing Zhang, Nancy F. Chen, Shafiq Joty, Furu Wei,
- Abstract要約: 提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
- 参考スコア(独自算出の注目度): 100.62603571434167
- License:
- Abstract: Preference optimization techniques, such as Direct Preference Optimization (DPO), are frequently employed to enhance the reasoning capabilities of large language models (LLMs) in domains like mathematical reasoning and coding, typically following supervised fine-tuning. These methods rely on high-quality labels for reasoning tasks to generate preference pairs; however, the availability of reasoning datasets with human-verified labels is limited. In this study, we introduce a novel approach to generate pseudo feedback for reasoning tasks by framing the labeling of solutions to reason problems as an evaluation against associated test cases. We explore two forms of pseudo feedback based on test cases: one generated by frontier LLMs and the other by extending self-consistency to multi-test-case. We conduct experiments on both mathematical reasoning and coding tasks using pseudo feedback for preference optimization, and observe improvements across both tasks. Specifically, using Mathstral-7B as our base model, we improve MATH results from 58.3 to 68.6, surpassing both NuminaMath-72B and GPT-4-Turbo-1106-preview. In GSM8K and College Math, our scores increase from 85.6 to 90.3 and from 34.3 to 42.3, respectively. Building on Deepseek-coder-7B-v1.5, we achieve a score of 24.6 on LiveCodeBench (from 21.1), surpassing Claude-3-Haiku.
- Abstract(参考訳): 直接選好最適化(DPO)のような選好最適化技術は、数学的推論やコーディングといった領域における大きな言語モデル(LLM)の推論能力を高めるためにしばしば用いられる。
これらの手法は、選好ペアを生成するための推論タスクに高品質なラベルを頼っているが、人間の検証されたラベルを用いた推論データセットの可用性は限られている。
そこで本研究では, 推論問題に対する解のラベル付けを, 関連するテストケースに対する評価として行うことで, 推論タスクに対する疑似フィードバックを生成する手法を提案する。
テストケースに基づく疑似フィードバックの2つの形態について検討する。一方はフロンティアLSMで,もう一方はマルチテストケースに自己整合性を拡張することで生成する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
具体的には、Mathstral-7Bをベースモデルとして、MATHの結果を58.3から68.6に改善し、NuminaMath-72BとGPT-4-Turbo-1106のプレビューを上回った。
GSM8KとCollege Mathでは、スコアは85.6から90.3に増加し、34.3から42.3に増加した。
Deepseek-coder-7B-v1.5をベースとして、LiveCodeBench(21.1から)で24.6のスコアを獲得し、Claude-3-Haikuを上回った。
関連論文リスト
- Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - Not All Votes Count! Programs as Verifiers Improve Self-Consistency of Language Models for Math Reasoning [24.386388107656334]
本稿では,プログラムベースの検証を用いて,潜在的に誤った推論経路をフィルタリングするPROVEを提案する。
バニラ多数決に頼る代わりに、我々の手法は、対応するプログラム出力が生成された解と矛盾する解を拒絶する。
PROVEは、すべてのデータセットとモデルサイズにわたる数学的推論タスクを解決するために、バニラ投票を一貫して上回っている。
論文 参考訳(メタデータ) (2024-10-16T14:24:55Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - Advancing Process Verification for Large Language Models via Tree-Based Preference Learning [23.63889344974957]
Tree-based Preference Learning Verifier (Tree-PLV) は、最優先探索アルゴリズムを用いて推論木を構築し、優先訓練のためにステップレベルのペアデータを収集する新しいアプローチである。
我々は,木-PLVを算術的および常識的推論タスクの範囲で実証的に評価し,既存のベンチマークを著しく上回る結果を得た。
論文 参考訳(メタデータ) (2024-06-29T10:09:49Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [33.5778998066089]
我々は,DeepSeek-Coder-Base-v1.5 7Bの事前トレーニングを継続するDeepSeekMath 7Bを紹介した。
DeepSeekMath 7Bは、競争レベルのMATHベンチマークで51.7%のスコアを獲得した。
論文 参考訳(メタデータ) (2024-02-05T18:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。