Fugu-MT 論文翻訳(概要): Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

論文の概要: Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

arxiv url: http://arxiv.org/abs/2403.09629v2
Date: Mon, 18 Mar 2024 07:56:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 23:14:54.811902
Title: Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking
Title（参考訳）: Quiet-STaR: 言語モデルは話す前に考えを学べる
Authors: Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman,
Abstract要約: 自己学習型推論器の一般化であるQuiet-STaRについて述べる。 LMは、将来のテキストを説明するために各トークンで合理性を生成することを学ぶ。 GSM8KとCommonsenseQAではゼロショットの改善が見られた。
参考スコア（独自算出の注目度）: 34.55545753125674
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.
Abstract（参考訳）: 書くときも話すときも、考えるのをやめることもある。推論に焦点を当てた著作は、しばしば、質問に答えたり、エージェント的なタスクを完了させる方法として推論の枠組みを定めているが、ほとんどすべてのテキストで推論は暗黙的である。例えば、証明の行の間に記載されていないステップや、会話の根底にある心の理論に当てはまる。 Self-Taught Reasoner (STaR, Zelikman et al 2022) では、質問回答の少数の例から合理的に推論し、正しい答えにつながるものから学習することで、有用な思考が学習される。これは非常に制約のある設定です - 理想的には、言語モデルは、任意のテキストで未定の有理を推測することを学ぶことができます。本稿では,STaRの一般化であるQuiet-STaRを提案する。私たちは重要な課題に取り組みます。 1)継続生成の計算コスト 2 LMが当初内部思想の生成又は使用方法を知らないこと、及び 3) 個々の次のトークンを越えて予測する必要性。これらを解決するために,思考の開始と終了を示す学習可能なトークンを用いたトークンワイド並列サンプリングアルゴリズムと,拡張された教師強制手法を提案する。生成した合理性は不公平に予測し難いトークンをモデル化し、難しい質問に直接答えるLMの能力を改善するのに役立つ。特に、Quiet-STaRでインターネットテキストのコーパスにLMを事前訓練した後、GSM8K (5.9%$\rightarrow$10.9%) とCommonsenseQA (36.3%$\rightarrow$47.2%) をゼロショットで改善し、自然文における難解なトークンの難易度改善を観察した。重要な点として、これらの改善はこれらのタスクを微調整する必要がない。 Quiet-STaRは、より汎用的でスケーラブルな方法で理屈を学べるLMへの一歩である。

関連論文リスト

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models [131.90117151306993]
音声言語モデル(SLM)は、音声入力を受信し、音声応答を生成するように設計されている。現在のSLMは、応答する前に、内部的に無意味な思考プロセスを実行する能力が欠けている。未知の推論チャンクと音声応答チャンクを交互に生成する新しい手法であるStitchを提案する。
論文参考訳（メタデータ） (2025-07-21T08:30:03Z)
Read Quietly, Think Aloud: Decoupling Comprehension and Reasoning in LLMs [3.153044931505783]
大規模言語モデル(LLM)は、テキストの理解と高品質な応答の生成に顕著な熟練性を示した。本稿では,LLMを内部処理に類似の能力で実装する方法について検討する。
論文参考訳（メタデータ） (2025-07-04T06:23:06Z)
Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文参考訳（メタデータ） (2025-06-09T14:55:00Z)
Let's Predict Sentence by Sentence [31.702157701240967]
本稿では,次の文の連続的な埋め込みを自動回帰予測することにより,事前訓練されたトークンレベルのLMを文空間内での操作に適応させるフレームワークを提案する。以上の結果から,事前学習したLMは,遅延埋め込み空間内での抽象的構造的推論に効果的に移行できることが示唆された。
論文参考訳（メタデータ） (2025-05-28T10:28:35Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
我々は,新しいプロンプトフレームワークであるSketch-of-Thought(SoT)を紹介する。認知に触発された推論パラダイムと言語制約を組み合わせることでトークンの使用を最小化する。 SoTは、無視できる精度の影響でトークンを76%削減する。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Training Large Language Models to Reason in a Continuous Latent Space [84.5618790930725]
我々は,制約のない潜在空間における大規模言語モデル(LLM)推論の可能性を探るため,新しいパラダイムであるCoconut (Chain of Continuous Thought)を導入する。実験により、ココナッツはいくつかの推論タスクにおいてLLMを効果的に増強できることが示されている。これらの知見は、潜伏推論の可能性を実証し、将来の研究に価値ある洞察を与える。
論文参考訳（メタデータ） (2024-12-09T18:55:56Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。また,LLMにも同様な自己検証能力があることを示す。
論文参考訳（メタデータ） (2022-12-19T15:51:52Z)
Continuous Entailment Patterns for Lexical Inference in Context [4.581468205348204]
テキストパターンを持つ事前訓練された言語モデル(PLM)は、ゼロショットと少数ショットの両方の設定に役立つことが示されている。ゼロショットのパフォーマンスでは、モデルが他に何も見ていないので、自己教師付き事前トレーニング中に見られるテキストによく似たパターンを設計することは理にかなっている。教師付きトレーニングにより、より柔軟性が向上する。もし PLM の語彙以外のトークンを許可すれば、パターンは PLM の慣用句に柔軟に適応できる。
論文参考訳（メタデータ） (2021-09-08T14:57:00Z)
Solving ESL Sentence Completion Questions via Pre-trained Neural Language Models [33.41201869566935]
文完成(SC)質問は1つ以上の空白を埋める文を提示する。本稿では,事前学習型言語モデルを用いて,英語試験におけるSC質問を解決するニューラルネットワークフレームワークを提案する。
論文参考訳（メタデータ） (2021-07-15T05:01:39Z)
Learning to Ask Conversational Questions by Optimizing Levenshtein Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。 RISEは会話の特徴に関連するトークンに注意を払うことができる。 2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2021-06-30T08:44:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。