論文の概要: Chain-of-Thought Reasoning is a Policy Improvement Operator
- arxiv url: http://arxiv.org/abs/2309.08589v1
- Date: Fri, 15 Sep 2023 17:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 13:21:17.028328
- Title: Chain-of-Thought Reasoning is a Policy Improvement Operator
- Title(参考訳): 思考連鎖推論は政策改善オペレーターである
- Authors: Hugh Zhang, David C. Parkes
- Abstract要約: SECToRは、言語モデルが自分自身で新しいスキルを学べる、概念実証のデモである。
SECToRは、強化学習と人間の認知の両方における過去の研究に触発され、まずチェーン・オブ・シークレット(チェーン・オブ・シークレット)の推論を使って、問題を徐々に考えていく。
SECToRは、チェーン・オブ・シークレットの推論を使わずに、モデルを微調整して同じ回答を生成する。
- 参考スコア(独自算出の注目度): 20.460299837067787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have astounded the world with fascinating new
capabilities. However, they currently lack the ability to teach themselves new
skills, relying instead on being trained on large amounts of human-generated
data. We introduce SECToR (Self-Education via Chain-of-Thought Reasoning), a
proof-of-concept demonstration that language models can successfully teach
themselves new skills using chain-of-thought reasoning. Inspired by previous
work in both reinforcement learning (Silver et al., 2017) and human cognition
(Kahneman, 2011), SECToR first uses chain-of-thought reasoning to slowly think
its way through problems. SECToR then fine-tunes the model to generate those
same answers, this time without using chain-of-thought reasoning. Language
models trained via SECToR autonomously learn to add up to 29-digit numbers
without any access to any ground truth examples beyond an initial supervised
fine-tuning phase consisting only of numbers with 6 or fewer digits. Our
central hypothesis is that chain-of-thought reasoning can act as a policy
improvement operator, analogously to how Monte-Carlo Tree Search is used in
AlphaZero. We hope that this research can lead to new directions in which
language models can learn to teach themselves without the need for human
demonstrations.
- Abstract(参考訳): 大きな言語モデルは、素晴らしい新機能で世界を驚かせた。
しかし、現在彼らは新しいスキルを教える能力に欠けており、その代わりに大量の人為的なデータに基づいて訓練されている。
SECToR(Self-Education via Chain-of-Thought Reasoning)は,言語モデルがチェーン・オブ・ソート推論を用いて新たなスキルを学べるという概念実証である。
強化学習(Silver et al., 2017)と人間の認知(Kahneman, 2011)の両方における過去の研究に触発されたSECToRは、まずチェーン・オブ・シークレット・推論を使って問題をゆっくりと考える。
SECToRはそのモデルを微調整して同じ回答を生成する。
SECToRで訓練された言語モデルは、6桁未満の数字のみからなる初期教師付き微調整フェーズを超えて、基礎的な真実の例にアクセスせずに、29桁の数字を追加することを自律的に学習する。
我々の中心的な仮説は、モンテカルロ木探索がAlphaZeroでどのように使われているかに類似して、連鎖推論が政策改善演算子として機能する、というものである。
この研究が、人間のデモを必要とせずに、言語モデルが自分自身を学べる新しい方向性に繋がることを期待しています。
関連論文リスト
- Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。
この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文 参考訳(メタデータ) (2023-10-09T06:54:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。