論文の概要: Self-Consistency Preference Optimization
- arxiv url: http://arxiv.org/abs/2411.04109v2
- Date: Thu, 07 Nov 2024 23:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 11:36:15.682465
- Title: Self-Consistency Preference Optimization
- Title(参考訳): 自己整合性推論最適化
- Authors: Archiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu,
- Abstract要約: 自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
- 参考スコア(独自算出の注目度): 79.37880123635405
- License:
- Abstract: Self-alignment, whereby models learn to improve themselves without human annotation, is a rapidly growing research area. However, existing techniques often fail to improve complex reasoning tasks due to the difficulty of assigning correct rewards. An orthogonal approach that is known to improve correctness is self-consistency, a method applied at inference time based on multiple sampling in order to find the most consistent answer. In this work, we extend the self-consistency concept to help train models. We thus introduce self-consistency preference optimization (ScPO), which iteratively trains consistent answers to be preferred over inconsistent ones on unsupervised new problems. We show ScPO leads to large improvements over conventional reward model training on reasoning tasks such as GSM8K and MATH, closing the gap with supervised training with gold answers or preferences, and that combining ScPO with standard supervised learning improves results even further. On ZebraLogic, ScPO finetunes Llama-3 8B to be superior to Llama-3 70B, Gemma-2 27B, and Claude-3 Haiku.
- Abstract(参考訳): 自己アライメント(Self-alignment)は、モデルが人間のアノテーションなしで自己改善を学ぶことで、急速に成長する研究分野である。
しかし、既存の技術は、正しい報酬を割り当てるのが難しいため、複雑な推論タスクを改善するのに失敗することが多い。
正当性を改善することが知られている直交的アプローチは自己整合性であり、最も一貫した答えを見つけるために複数のサンプリングに基づいて推論時に適用される方法である。
本研究では,モデル学習を支援する自己整合性の概念を拡張した。
そこで本稿では、教師なしの新たな問題に対して、一貫性のない回答を優先するように反復的に訓練する自己整合性優先最適化(ScPO)を導入する。
我々は、従来の報酬モデルトレーニングよりも、GSM8KやMATHのような推論タスクにおいて、ScPOは、金の回答や嗜好による教師あり学習とのギャップを埋め、ScPOと標準教師あり学習を組み合わせることで、さらに結果が向上することを示した。
ゼブラ論理では、ScPOはLlama-3 8BをLlama-3 70B、Gemma-2 27B、Claude-3 Haikuに優越している。
関連論文リスト
- ACING: Actor-Critic for Instruction Learning in Black-Box Large Language Models [4.890873355984701]
ACINGは、タスク固有のプロンプト最適化アプローチであり、ステートレスな継続的アクション強化学習問題である。
我々は30の命令ベースタスク上でChatGPTのプロンプトを最適化することでACINGを検証する。
ACingはベースラインの手法を一貫して上回り、スコアの中央値が10ポイント向上した。
論文 参考訳(メタデータ) (2024-11-19T18:58:03Z) - Self-Training Meets Consistency: Improving LLMs' Reasoning With Consistency-Driven Rationale Evaluation [15.124701883286436]
大規模言語モデル(LLM)の自己学習アプローチは、自己生成的理性に基づいてモデルをトレーニングすることで推論能力を向上させる。
これまでのアプローチでは、与えられた質問に対する正しい答えをトレーニングに適するように、合理的にラベル付けしてきた。
CREST(Consistency-driven Rationale Evaluation for Self-Training)は,フォローアップ質問を通じて各根拠を更に評価する自己学習フレームワークである。
論文 参考訳(メタデータ) (2024-11-10T08:11:05Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Self-Labeling the Job Shop Scheduling Problem [15.723699332053558]
生成モデルは複数の解をサンプリングし、問題の目的に応じて最良の解を擬似ラベルとして使用することにより訓練可能であることを示す。
旅行セールスマン問題に適用することで,様々なパラメータに対するSLIMのロバスト性とその一般性を証明する。
論文 参考訳(メタデータ) (2024-01-22T11:08:36Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。