論文の概要: Preference Optimization for Reasoning with Pseudo Feedback
- arxiv url: http://arxiv.org/abs/2411.16345v2
- Date: Fri, 14 Feb 2025 09:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:05:24.913696
- Title: Preference Optimization for Reasoning with Pseudo Feedback
- Title(参考訳): 擬似フィードバックを用いた推論の優先最適化
- Authors: Fangkai Jiao, Geyang Guo, Xingxing Zhang, Nancy F. Chen, Shafiq Joty, Furu Wei,
- Abstract要約: 提案手法では,解のラベル付けを関連するテストケースに対する評価として行うことで,推論タスクに対する疑似フィードバックを生成する手法を提案する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
- 参考スコア(独自算出の注目度): 100.62603571434167
- License:
- Abstract: Preference optimization techniques, such as Direct Preference Optimization (DPO), are frequently employed to enhance the reasoning capabilities of large language models (LLMs) in domains like mathematical reasoning and coding, typically following supervised fine-tuning. These methods rely on high-quality labels for reasoning tasks to generate preference pairs; however, the availability of reasoning datasets with human-verified labels is limited. In this study, we introduce a novel approach to generate pseudo feedback for reasoning tasks by framing the labeling of solutions to reason problems as an evaluation against associated test cases. We explore two forms of pseudo feedback based on test cases: one generated by frontier LLMs and the other by extending self-consistency to multi-test-case. We conduct experiments on both mathematical reasoning and coding tasks using pseudo feedback for preference optimization, and observe improvements across both tasks. Specifically, using Mathstral-7B as our base model, we improve MATH results from 58.3 to 68.6, surpassing both NuminaMath-72B and GPT-4-Turbo-1106-preview. In GSM8K and College Math, our scores increase from 85.6 to 90.3 and from 34.3 to 42.3, respectively. Building on Deepseek-coder-7B-v1.5, we achieve a score of 24.6 on LiveCodeBench (from 21.1), surpassing Claude-3-Haiku.
- Abstract(参考訳): 直接選好最適化(DPO)のような選好最適化技術は、数学的推論やコーディングといった領域における大きな言語モデル(LLM)の推論能力を高めるためにしばしば用いられる。
これらの手法は、選好ペアを生成するための推論タスクに高品質なラベルを頼っているが、人間の検証されたラベルを用いた推論データセットの可用性は限られている。
そこで本研究では, 推論問題に対する解のラベル付けを, 関連するテストケースに対する評価として行うことで, 推論タスクに対する疑似フィードバックを生成する手法を提案する。
テストケースに基づく疑似フィードバックの2つの形態について検討する。一方はフロンティアLSMで,もう一方はマルチテストケースに自己整合性を拡張することで生成する。
本研究では,擬似フィードバックを優先最適化に用いる数学的推論と符号化の両タスクについて実験を行い,両タスク間の改善を観察する。
具体的には、Mathstral-7Bをベースモデルとして、MATHの結果を58.3から68.6に改善し、NuminaMath-72BとGPT-4-Turbo-1106のプレビューを上回った。
GSM8KとCollege Mathでは、スコアは85.6から90.3に増加し、34.3から42.3に増加した。
Deepseek-coder-7B-v1.5をベースとして、LiveCodeBench(21.1から)で24.6のスコアを獲得し、Claude-3-Haikuを上回った。
関連論文リスト
- EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates [51.633266497799745]
思考テンプレートのスケーリングによる階層的LLM推論は、推論検索空間を効果的に最適化することができる。
i)類似または関連する推論問題に一般化可能な500ほどの高レベルな思考テンプレートを含む構造化・汎用的な思考テンプレートライブラリ,(ii)長いCoTではなく一連の思考テンプレート上で階層的な強化学習を行う,(iii)全く新しい推論スケーリングシステム,の3つの革新を紹介した。
論文 参考訳(メタデータ) (2025-02-10T18:51:47Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - PORT: Preference Optimization on Reasoning Traces [1.7292887546437081]
本稿では,言語モデルの数学的推論性能を改善するために,Chain-of-Thoughtステップの優先最適化手法を提案する。
提案手法により,Falcon2-11B と Mistral-7B の GSM8K と AQuA-RAT の数学的推論ベンチマークの精度が向上する。
ARCベンチマークやシンボリック推論問題など、改良された能力は非数学的なタスクに移行した。
論文 参考訳(メタデータ) (2024-06-23T09:51:06Z) - Iterative Reasoning Preference Optimization [84.15992372132507]
生成したChain-of-Thought(CoT)候補間の嗜好を最適化するための反復的アプローチを開発する。
このスキームの繰り返し繰り返しにおける推論の改善を示す。
例えば、GSM8Kは55.6%から81.6%に大きく改善され、精度は88.7%となり、32のサンプルのうち多数が投票した。
論文 参考訳(メタデータ) (2024-04-30T17:28:05Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [33.5778998066089]
我々は,DeepSeek-Coder-Base-v1.5 7Bの事前トレーニングを継続するDeepSeekMath 7Bを紹介した。
DeepSeekMath 7Bは、競争レベルのMATHベンチマークで51.7%のスコアを獲得した。
論文 参考訳(メタデータ) (2024-02-05T18:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。