論文の概要: Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
- arxiv url: http://arxiv.org/abs/2403.09629v2
- Date: Mon, 18 Mar 2024 07:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 23:14:54.811902
- Title: Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
- Title(参考訳): Quiet-STaR: 言語モデルは話す前に考えを学べる
- Authors: Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman,
- Abstract要約: 自己学習型推論器の一般化であるQuiet-STaRについて述べる。
LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。
GSM8KとCommonsenseQAではゼロショットの改善が見られた。
- 参考スコア(独自算出の注目度): 34.55545753125674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.
- Abstract(参考訳): 書くときも話すときも、考えるのをやめることもある。
推論に焦点を当てた著作は、しばしば、質問に答えたり、エージェント的なタスクを完了させる方法として推論の枠組みを定めているが、ほとんどすべてのテキストで推論は暗黙的である。
例えば、証明の行の間に記載されていないステップや、会話の根底にある心の理論に当てはまる。
Self-Taught Reasoner (STaR, Zelikman et al 2022) では、質問回答の少数の例から合理的に推論し、正しい答えにつながるものから学習することで、有用な思考が学習される。
これは非常に制約のある設定です - 理想的には、言語モデルは、任意のテキストで未定の有理を推測することを学ぶことができます。
本稿では,STaRの一般化であるQuiet-STaRを提案する。
私たちは重要な課題に取り組みます。
1)継続生成の計算コスト
2 LMが当初内部思想の生成又は使用方法を知らないこと、及び
3) 個々の次のトークンを越えて予測する必要性。
これらを解決するために,思考の開始と終了を示す学習可能なトークンを用いたトークンワイド並列サンプリングアルゴリズムと,拡張された教師強制手法を提案する。
生成した合理性は不公平に予測し難いトークンをモデル化し、難しい質問に直接答えるLMの能力を改善するのに役立つ。
特に、Quiet-STaRでインターネットテキストのコーパスにLMを事前訓練した後、GSM8K (5.9%$\rightarrow$10.9%) とCommonsenseQA (36.3%$\rightarrow$47.2%) をゼロショットで改善し、自然文における難解なトークンの難易度改善を観察した。
重要な点として、これらの改善はこれらのタスクを微調整する必要がない。
Quiet-STaRは、より汎用的でスケーラブルな方法で理屈を学べるLMへの一歩である。
関連論文リスト
- Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Continuous Entailment Patterns for Lexical Inference in Context [4.581468205348204]
テキストパターンを持つ事前訓練された言語モデル(PLM)は、ゼロショットと少数ショットの両方の設定に役立つことが示されている。
ゼロショットのパフォーマンスでは、モデルが他に何も見ていないので、自己教師付き事前トレーニング中に見られるテキストによく似たパターンを設計することは理にかなっている。
教師付きトレーニングにより、より柔軟性が向上する。もし PLM の語彙以外のトークンを許可すれば、パターンは PLM の慣用句に柔軟に適応できる。
論文 参考訳(メタデータ) (2021-09-08T14:57:00Z) - Solving ESL Sentence Completion Questions via Pre-trained Neural
Language Models [33.41201869566935]
文完成(SC)質問は1つ以上の空白を埋める文を提示する。
本稿では,事前学習型言語モデルを用いて,英語試験におけるSC質問を解決するニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-15T05:01:39Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。