論文の概要: Chain-of-Thought Reasoning is a Policy Improvement Operator
- arxiv url: http://arxiv.org/abs/2309.08589v2
- Date: Wed, 8 Nov 2023 18:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:13:45.452839
- Title: Chain-of-Thought Reasoning is a Policy Improvement Operator
- Title(参考訳): 思考連鎖推論は政策改善オペレーターである
- Authors: Hugh Zhang, David C. Parkes
- Abstract要約: SECToRは、言語モデルがチェーン・オブ・シークレット推論を使って新しいスキルを学べる、概念実証のデモである。
自己学習ループの間、SECToRはモデルの次のバージョンをトレーニングする前にチェーン・オブ・ソート・推論を使用して追加問題の解決をモデルに求め、そのような推論を使わずにこれらの同じ問題を直接解決する。
このプロセスは、しばしば改善されたモデルをもたらし、再びチェーン・オブ・シークレットの推論で拡張すると、オリジナルのモデルよりもさらに難しい問題を解決できる。
- 参考スコア(独自算出の注目度): 20.460299837067787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have astounded the world with fascinating new
capabilities. However, they currently lack the ability to teach themselves new
skills, relying instead on large amounts of human-generated training data. We
introduce SECToR (Self-Education via Chain-of-Thought Reasoning), a
proof-of-concept demonstration that language models can teach themselves new
skills using chain-of-thought reasoning. During the self-learning loop, SECToR
asks models to solve addition problems using chain-of-thought reasoning before
training the next version of the model to solve those same problems directly
without using such reasoning. This process often results in an improved model
which can, when again augmented with chain-of-thought reasoning, solve even
harder problems than the original model, allowing the self-learning loop to
continue. Language models trained via SECToR autonomously learn to add up to
the longest-length-digit numbers without access to any ground truth examples
beyond an initial supervised fine-tuning phase consisting only of numbers with
6 or fewer digits. Our central hypothesis is that chain-of-thought reasoning
can act as a policy improvement operator, similarly to how Monte-Carlo Tree
Search is used in AlphaZero (Silver et al., 2017). We hope that this research
can lead to new directions in which language models can learn to teach
themselves without the need for human demonstrations.
- Abstract(参考訳): 大きな言語モデルは、素晴らしい新機能で世界を驚かせた。
しかし、彼らは現在、大量の人為的なトレーニングデータに頼る代わりに、自分自身に新しいスキルを教える能力がない。
セクタ(チェイン・オブ・ソーシングによる自己教育)は、言語モデルがチェイン・オブ・ソーシングを使って新しいスキルを身につけることができるという概念実証です。
自己学習ループの間、SECToRはモデルの次のバージョンをトレーニングする前にチェーン・オブ・ソート・推論を使用して追加問題を解決するようモデルに求める。
このプロセスは、しばしば改善されたモデルをもたらし、再びチェーンオブソート推論で拡張すると、オリジナルのモデルよりもさらに難しい問題を解決し、自己学習ループを継続することができる。
セクタを通じて自律的に訓練された言語モデルは、6桁以下の数字のみからなる最初の教師付き微調整フェーズを超えて、基礎的な真理の例にアクセスせずに最長桁数を加算することを学ぶ。
私たちの中心的な仮説は、alphazero(silver et al., 2017)でモンテカルロ木探索が使われているのと同じように、チェーン・オブ・マインド推論が政策改善演算子として機能する、ということです。
この研究が、人間のデモを必要とせずに、言語モデルが自分自身を学べる新しい方向性に繋がることを期待しています。
関連論文リスト
- Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。
我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。
これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文 参考訳(メタデータ) (2024-11-12T04:25:31Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Empower Nested Boolean Logic via Self-Supervised Curriculum Learning [67.46052028752327]
大規模言語モデルを含む事前学習された言語モデルは、多言語論理に直面するランダムセレクタのように振る舞う。
この基本的能力で言語モデルを強化するために,本稿では,新たな自己教師付き学習手法であるtextitCurriculum Logical Reasoning (textscClr) を提案する。
論文 参考訳(メタデータ) (2023-10-09T06:54:02Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Learning to Reason With Relational Abstractions [65.89553417442049]
関係抽象化の考え方を用いて,言語モデルにおいてより強力な推論能力を構築する方法について検討する。
このようなシーケンスをプロンプトとして提供したモデルでは,タスクの精度が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2022-10-06T00:27:50Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。