Fugu-MT 論文翻訳(概要): Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

論文の概要: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2407.18248v1
Date: Thu, 25 Jul 2024 17:59:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-26 13:09:36.642587
Title: Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning
Title（参考訳）: 直接選好最適化による自己学習による階層推論の改善
Authors: Tianduo Wang, Shichen Li, Wei Lu,
Abstract要約: 本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
参考スコア（独自算出の注目度）: 5.487210426671288
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Effective training of language models (LMs) for mathematical reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling from larger and more powerful LMs. However, this knowledge distillation approach can be costly and unstable, particularly when relying on closed-source, proprietary LMs like GPT-4, whose behaviors are often unpredictable. In this work, we demonstrate that the reasoning abilities of small-scale LMs can be enhanced through self-training, a process where models learn from their own outputs. We also show that the conventional self-training can be further augmented by a preference learning algorithm called Direct Preference Optimization (DPO). By integrating DPO into self-training, we leverage preference data to guide LMs towards more accurate and diverse chain-of-thought reasoning. We evaluate our method across various mathematical reasoning tasks using different base models. Our experiments show that this approach not only improves LMs' reasoning performance but also offers a more cost-effective and scalable solution compared to relying on large proprietary LMs.
Abstract（参考訳）: 数学的推論タスクのための言語モデル(LM)の効果的なトレーニングには、高品質な教師付き微調整データが必要である。人間の専門家からアノテーションを得るのに加えて、より大きくより強力なLMからサンプルをサンプリングするのが一般的な方法である。しかし、この知識蒸留手法は高価で不安定であり、特にGPT-4のようなクローズドソースでプロプライエタリなLMに依存している場合、その振る舞いは予測不可能である。本研究では,モデルが自身の出力から学習するプロセスである自己学習によって,小規模LMの推論能力を向上できることを実証する。また、従来の自己学習は、DPO(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。 DPOを自己学習に統合することにより、好みデータを活用して、より正確で多様な思考の連鎖推論に向けてLMを誘導する。本手法は,様々な基礎モデルを用いて,様々な数学的推論タスクにまたがって評価する。実験の結果、このアプローチはLMの推論性能を向上するだけでなく、大規模プロプライエタリなLMよりもコスト効率が高くスケーラブルなソリューションを提供することがわかった。

関連論文リスト

Enhancing LLM Reasoning via Non-Human-Like Reasoning Path Preference Optimization [40.8414358896996]
信頼誘導推論経路優先最適化(CGPO)を提案する。 CGPOは、軌道ドリフトを緩和するために、自己生成非人間的な推論パスガイダンスを適用している。提案手法は,強いモデルや人手による注釈付きデータを用いた手法と比較して,ほとんどの場合において優れた性能が得られることを示す。
論文参考訳（メタデータ） (2025-10-13T07:51:16Z)
IPO: Your Language Model is Secretly a Preference Classifier [1.8921784053120494]
人からのフィードバックから強化学習(RLHF)が,大規模言語モデルと人間の嗜好を整合させる主要な手法として登場した。本稿では、生成言語モデルを選好分類器として活用する代替手法として、Implicit Preference Optimization (IPO)を提案する。この結果から、IPOを通じてトレーニングされたモデルは、最先端の報酬モデルを使って好みを得られるモデルに匹敵するパフォーマンスを達成できることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:59:11Z)
Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity [28.717420152590204]
細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
論文参考訳（メタデータ） (2025-02-17T13:14:11Z)
Teaching LLMs to Refine with Tools [68.23479664749271]
大規模言語モデル(LLM)はフィードバックに基づいて応答を洗練し、反復的なトレーニングやテスト時間の改良を通じて自己改善を可能にする。外部ツールを用いて同一または他のLLMによって生成されたチェーン・オブ・シント(CoT)応答を洗練するための新しいアプローチであるCaPを提案する。
論文参考訳（メタデータ） (2024-12-22T05:43:50Z)
Learning to Reason via Self-Iterative Process Feedback for Small Language Models [5.3831551965806534]
小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用効率が良く、カスタマイズできる。この研究により、SLMは自己満足的なフィードバックから推論を学ぶことができる。
論文参考訳（メタデータ） (2024-12-11T14:05:04Z)
Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文参考訳（メタデータ） (2024-09-26T12:37:26Z)
Self-training Language Models for Arithmetic Reasoning [0.0]
我々は、新しいデータなしでモデルの推論能力を改善する可能性を探る。モデルは単一ラウンド(オフライン)とオンラインの自己学習の両方で大幅に改善できることがわかった。
論文参考訳（メタデータ） (2024-07-11T11:06:05Z)
Direct Alignment of Language Models via Quality-Aware Self-Refinement [31.845241241178982]
そこで本研究では,本研究における本質的知識の活用について検討し,相対的特性の獲得と損失関数の高度化に寄与する。構築された精細化関数は、軽度の仮定の下で損失関数を自己再定義するのに役立つことを示す。実験は、DPOやIPOよりも細調整されたモデルの性能を向上させることができることを示している。
論文参考訳（メタデータ） (2024-05-31T17:31:18Z)
Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。 MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文参考訳（メタデータ） (2024-05-26T00:29:04Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文参考訳（メタデータ） (2024-04-22T17:20:18Z)
Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文参考訳（メタデータ） (2024-02-12T23:09:00Z)
MinT: Boosting Generalization in Mathematical Reasoning via Multi-View Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文参考訳（メタデータ） (2023-07-16T05:41:53Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。