論文の概要: Self-Consistency Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.04109v2
- Date: Thu, 07 Nov 2024 23:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 11:36:15.682465
- Title: Self-Consistency Preference Optimization
- Title(参考訳): 自己整合性推論最適化
- Authors: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu,
- Abstract要約: 自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
- 参考スコア(独自算出の注目度): 79.37880123635405
- License:
- Abstract: Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.
- Abstract(参考訳): 自己アライメント(Self-alignment)は、モデルが人間のアノテーションなしで自己改善を学ぶことで、急速に成長する研究分野である。
しかし、既存の技術は、正しい報酬を割り当てるのが難しいため、複雑な推論タスクを改善するのに失敗することが多い。
正当性を改善することが知られている直交的アプローチは自己整合性であり、最も一貫した答えを見つけるために複数のサンプリングに基づいて推論時に適用される方法である。
本研究では,モデル学習を支援する自己整合性の概念を拡張した。
そこで本稿では、教師なしの新たな問題に対して、一貫性のない回答を優先するように反復的に訓練する自己整合性優先最適化(ScPO)を導入する。
我々は、従来の報酬モデルトレーニングよりも、GSM8KやMATHのような推論タスクにおいて、ScPOは、金の回答や嗜好による教師あり学習とのギャップを埋め、ScPOと標準教師あり学習を組み合わせることで、さらに結果が向上することを示した。
ゼブラ論理では、ScPOはLlama-3 8BをLlama-3 70B、Gemma-2 27B、Claude-3 Haikuに優越している。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*は、プロセス報酬ガイダンスとツリー検索MCTS*を統合し、高品質な推論トレースを収集する。
まず,ReST-MCTS*における木探索ポリシーは,従来のLCM推論基準よりも精度が高いことを示した。
次に、この木探索ポリシーによって探索されたトレースをトレーニングデータとして使用することにより、複数の反復に対して3つの言語モデルを継続的に拡張できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Self-Labeling the Job Shop Scheduling Problem [15.723699332053558]
生成モデルは複数の解をサンプリングし、問題の目的に応じて最良の解を擬似ラベルとして使用することにより訓練可能であることを示す。
旅行セールスマン問題に適用することで,様々なパラメータに対するSLIMのロバスト性とその一般性を証明する。
論文 参考訳(メタデータ) (2024-01-22T11:08:36Z) - Training Chain-of-Thought via Latent-Variable Inference [30.21067593018967]
大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-28T17:47:32Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。