Fugu-MT 論文翻訳(概要): Learning to Reason via Self-Iterative Process Feedback for Small Language Models

論文の概要: Learning to Reason via Self-Iterative Process Feedback for Small Language Models

arxiv url: http://arxiv.org/abs/2412.08393v1
Date: Wed, 11 Dec 2024 14:05:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.696932
Title: Learning to Reason via Self-Iterative Process Feedback for Small Language Models
Title（参考訳）: 小言語モデルに対する自己決定的プロセスフィードバックによる推論の学習
Authors: Kaiyuan Chen, Jin Wang, Xuejie Zhang,
Abstract要約: 小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用効率が良く、カスタマイズできる。この研究により、SLMは自己満足的なフィードバックから推論を学ぶことができる。
参考スコア（独自算出の注目度）: 5.3831551965806534
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Small language models (SLMs) are more efficient, cost-effective, and customizable than large language models (LLMs), though they often underperform in specific areas like reasoning. Past methods for enhancing SLMs' reasoning, such as supervised fine-tuning and distillation, often depend on costly external signals, resulting in SLMs being overly confident with limited supervision signals, thus limiting their abilities. Therefore, this study enables SLMs to learn to reason from self-iterative feedback. By combining odds ratio preference optimization (ORPO), we fine-tune and align SLMs using positive and negative signals generated by themselves. Additionally, we introduce process supervision for rewards in preference alignment by sampling-based inference simulation and process reward models. Compared to Supervised Fine-Tuning (SFT), our method improves the performance of Gemma-2B by 12.43 (Acc) on GSM8K and 3.95 (Pass@1) on MBPP. Furthermore, the proposed method also demonstrated superior out-of-domain generalization capabilities on MMLU_Math and HumanEval.
Abstract（参考訳）: 小型言語モデル (SLM) は大規模言語モデル (LLM) よりも効率的で費用対効果があり、カスタマイズ可能であるが、推論のような特定の分野では性能が劣ることが多い。監督された微調整や蒸留のような従来のSLMの推論を強化する方法は、しばしば高価な外部信号に依存するため、SLMは限られた監視信号に過度に自信を持ち、能力を制限する。そこで本研究では,SLMが自己満足的フィードバックから推論を学習することを可能にする。オッズ比選好最適化(ORPO)を組み合わせることで、自己生成した正と負の信号を用いて微調整し、SLMを整列する。さらに、サンプリングベース推論シミュレーションとプロセス報酬モデルにより、選好アライメントにおける報酬のプロセス監視を導入する。 GSM8Kは12.43(Acc)、MBPPは3.95(Pass@1)である。さらに,MMLU_MathおよびHumanEval上でのドメイン外一般化性能も向上した。

関連論文リスト

Improving LLM-based Recommendation with Self-Hard Negatives from Intermediate Layers [80.55429742713623]
ILRecはLLMベースのレコメンデーションシステムのための新しい好みの微調整フレームワークである。負の信号に対してトークンレベルの報酬を割り当てるための軽量な協調フィルタリングモデルを提案する。 3つのデータセットの実験は、LLMベースのレコメンデータシステムの性能向上におけるILRecの有効性を示している。
論文参考訳（メタデータ） (2026-02-19T14:37:43Z)
Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文参考訳（メタデータ） (2025-11-09T03:38:29Z)
ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文参考訳（メタデータ） (2025-08-17T14:50:23Z)
SDMPrune: Self-Distillation MLP Pruning for Efficient Large Language Models [3.962074007736394]
原モデルの予測を十分に活用するために,プレニング段階(後訓練ではなく)に自己蒸留損失を導入する。提案手法は,既存の刈り取り法よりも大幅に優れていることを示す。提案手法は,1BスケールのオープンソースLLMにおいて,非常に競争力のある性能を実現する。
論文参考訳（メタデータ） (2025-06-10T02:24:32Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
Reverse Engineering Human Preferences with Reinforcement Learning [14.508050809497847]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文参考訳（メタデータ） (2025-05-21T17:48:16Z)
Teaching LLMs to Refine with Tools [68.23479664749271]
大規模言語モデル(LLM)はフィードバックに基づいて応答を洗練し、反復的なトレーニングやテスト時間の改良を通じて自己改善を可能にする。外部ツールを用いて同一または他のLLMによって生成されたチェーン・オブ・シント(CoT)応答を洗練するための新しいアプローチであるCaPを提案する。
論文参考訳（メタデータ） (2024-12-22T05:43:50Z)
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。 LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文参考訳（メタデータ） (2024-11-06T22:02:30Z)
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文参考訳（メタデータ） (2024-10-24T14:31:52Z)
A Gradient Analysis Framework for Rewarding Good and Penalizing Bad Examples in Language Models [63.949883238901414]
本稿では,損失関数の勾配解析の特異な角度について述べる。 ExMATEはMLEの優れたサロゲートであり,DPOとMLEの代わりにExMATEを組み合わせることで,統計的(5-7%)と生成的(+18%)の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-08-29T17:46:18Z)
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文参考訳（メタデータ） (2024-07-25T17:59:16Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models [0.8133739801185272]
小さい言語モデルと大きい言語モデルの間の推論能力のアライメントは、主にスーパーバイザード・ファイン・チューニング(SFT)を通して行われる。そこで本研究では,より小さな言語モデルを用いて自己定義する自己記述型指導手法を提案する。コモンセンスと数学の推論タスクで得られた結果は、このアプローチがドメイン内とドメイン外の両方のシナリオでインストラクションチューニングを著しく上回っていることを示している。
論文参考訳（メタデータ） (2024-05-01T09:10:27Z)
Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。 ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文参考訳（メタデータ） (2024-04-25T17:39:50Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文参考訳（メタデータ） (2023-11-15T18:56:23Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。 DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-29T17:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。