論文の概要: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2404.03414v1
- Date: Thu, 4 Apr 2024 12:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:51:30.509253
- Title: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
- Title(参考訳): 小言語モデルは大規模言語モデルの改善に役立つか?:LM-Guided Chain-of-Thought
- Authors: Jooyoung Lee, Fan Yang, Thanh Tran, Qian Hu, Emre Barut, Kai-Wei Chang, Chengwei Su,
- Abstract要約: タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
- 参考スコア(独自算出の注目度): 51.240387516059535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.
- Abstract(参考訳): そこで我々は,軽量な (<1B) 言語モデル (LM) を利用して,ブラックボックスの大きい (>10B) LM を推論タスクに導く新しいフレームワーク LM-Guided CoT を提案する。
具体的には、軽量LMはまず、入力インスタンス毎に論理を生成する。
凍結された大きなLMは、軽量LMが生成した論理に基づいてタスク出力を予測するように促される。
私たちのアプローチは、軽量LMのトレーニングのみを必要とするという意味で、リソース効率が高いのです。
私たちはモデルを最適化します
1【知識の蒸留・蒸留】
2)理性指向とタスク指向の報酬信号からの強化学習。
提案手法をマルチホップ抽出質問応答(QA)ベンチマーク,HotpotQA,2WikiMultiHopQAを用いて評価する。
実験結果から,本手法は解答精度に関して,すべてのベースラインに優れることがわかった。
また、強化学習はQA性能を向上させることで、モデルが高品質な合理性を生み出すのに役立ちます。
関連論文リスト
- On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。
本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T09:14:35Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Prompting as Probing: Using Language Models for Knowledge Base
Construction [1.6050172226234583]
我々は,2020年にOpenAIが提案した大規模言語モデルであるGPT-3を利用したProP(Prompting as Probing)を提案する。
ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。
評価の結果,提案手法は最終的な予測精度を大幅に向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-23T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。