論文の概要: Training Chain-of-Thought via Latent-Variable Inference
- arxiv url: http://arxiv.org/abs/2312.02179v1
- Date: Tue, 28 Nov 2023 17:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 03:34:19.988380
- Title: Training Chain-of-Thought via Latent-Variable Inference
- Title(参考訳): 潜在変数推論による思考の学習
- Authors: Du Phan, Matthew D. Hoffman, David Dohan, Sholto Douglas, Tuan Anh Le,
Aaron Parisi, Pavel Sountsov, Charles Sutton, Sharad Vikram, Rif A. Saurous
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・シンクレットのプロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解決する。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な根拠の監督が必要である。
そこで本研究では,CoTプロンプトを用いて正しい回答を生成することで,電子対数類似度を最大化するための微調整戦略を提案する。
- 参考スコア(独自算出の注目度): 30.21067593018967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) solve problems more accurately and interpretably
when instructed to work out the answer step by step using a
``chain-of-thought'' (CoT) prompt. One can also improve LLMs' performance on a
specific task by supervised fine-tuning, i.e., by using gradient ascent on some
tunable parameters to maximize the average log-likelihood of correct answers
from a labeled training set. Naively combining CoT with supervised tuning
requires supervision not just of the correct answers, but also of detailed
rationales that lead to those answers; these rationales are expensive to
produce by hand. Instead, we propose a fine-tuning strategy that tries to
maximize the \emph{marginal} log-likelihood of generating a correct answer
using CoT prompting, approximately averaging over all possible rationales. The
core challenge is sampling from the posterior over rationales conditioned on
the correct answer; we address it using a simple Markov-chain Monte Carlo
(MCMC) expectation-maximization (EM) algorithm inspired by the self-taught
reasoner (STaR), memoized wake-sleep, Markovian score climbing, and persistent
contrastive divergence. This algorithm also admits a novel control-variate
technique that drives the variance of our gradient estimates to zero as the
model improves. Applying our technique to GSM8K and the tasks in BIG-Bench
Hard, we find that this MCMC-EM fine-tuning technique typically improves the
model's accuracy on held-out examples more than STaR or prompt-tuning with or
without CoT.
- Abstract(参考訳): 大規模言語モデル (LLM) は '`chain-of- Thought'' (CoT) プロンプトを使って解答ステップを実行するように指示されたときに、より正確かつ解釈可能な問題を解く。
特定のタスクにおけるLLMのパフォーマンスを、微調整、すなわちいくつかの調整可能なパラメータへの勾配上昇を用いて、ラベル付きトレーニングセットからの正しい回答の平均ログリブレーションを最大化することにより改善することができる。
CoTと教師付きチューニングを組み合わせるには、正しい回答だけでなく、それらの答えにつながる詳細な理論的根拠の監督が必要である。
代わりに、我々はCoTプロンプトを用いて正解を生成し、可能なすべての有理性に対してほぼ平均化する「emph{marginal} log-likelyhood」を最大化する微調整戦略を提案する。
本研究の課題は, 自己学習推論器(STaR)にインスパイアされた単純なマルコフ連鎖モンテカルロ (MCMC) 予測最大化 (EM) アルゴリズム, 覚醒スリープ, マルコフスコアクライミング, 永続的コントラスト分岐を用いて, 正解に基づく有理性上の後部から抽出することである。
このアルゴリズムはまた、モデルが改善するにつれて勾配推定のばらつきをゼロにする新しい制御変量法も認めている。
本手法をGSM8KとBIG-Bench Hardのタスクに適用すると,このMCMC-EM微細チューニング技術は,通常,STaR以上のホールドアウト例や,CoTの有無に関わらず,モデルの精度を向上する。
関連論文リスト
- Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Recursive Introspection: Teaching Language Model Agents How to Self-Improve [30.086494067593268]
RISE: Recursive IntroSpEctionは,大規模言語モデルを微調整する手法である。
実験の結果,RISEはLlama2,Llama3,Mistralの各モデルに対して,数学推論タスクのターン数を増やすことで自己改善を可能にすることがわかった。
論文 参考訳(メタデータ) (2024-07-25T17:35:59Z) - CoRMF: Criticality-Ordered Recurrent Mean Field Ising Solver [4.364088891019632]
我々は、RNNに基づく効率的なIsingモデル解法、Criticality-ordered Recurrent Mean Field (CoRMF)を提案する。
基礎となるIsingグラフの近似木構造を利用することで、新しく得られた臨界度順序は、変動平均場とRNNの統一を可能にする。
CoRFMはデータ/証拠のない自己学習方式でIsing問題を解き、RNNから直接サンプリングすることで推論タスクを実行することができる。
論文 参考訳(メタデータ) (2024-03-05T16:55:06Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z) - GRACE: Discriminator-Guided Chain-of-Thought Reasoning [75.35436025709049]
本稿では, 正しい推論手順を導出するために, GRACE (CorrectnEss Discriminator) を用いたチェーン・オブ・シークレット・リAsoningを提案する。
GRACEは、正しいステップと間違ったステップに対して対照的な損失で訓練された判別器を採用しており、復号時に次のステップ候補を採点するために使用される。
論文 参考訳(メタデータ) (2023-05-24T09:16:51Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。