論文の概要: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2404.03414v1
- Date: Thu, 4 Apr 2024 12:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:51:30.509253
- Title: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
- Title(参考訳): 小言語モデルは大規模言語モデルの改善に役立つか?:LM-Guided Chain-of-Thought
- Authors: Jooyoung Lee, Fan Yang, Thanh Tran, Qian Hu, Emre Barut, Kai-Wei Chang, Chengwei Su,
- Abstract要約: タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
- 参考スコア(独自算出の注目度): 51.240387516059535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.
- Abstract(参考訳): そこで我々は,軽量な (<1B) 言語モデル (LM) を利用して,ブラックボックスの大きい (>10B) LM を推論タスクに導く新しいフレームワーク LM-Guided CoT を提案する。
具体的には、軽量LMはまず、入力インスタンス毎に論理を生成する。
凍結された大きなLMは、軽量LMが生成した論理に基づいてタスク出力を予測するように促される。
私たちのアプローチは、軽量LMのトレーニングのみを必要とするという意味で、リソース効率が高いのです。
私たちはモデルを最適化します
1【知識の蒸留・蒸留】
2)理性指向とタスク指向の報酬信号からの強化学習。
提案手法をマルチホップ抽出質問応答(QA)ベンチマーク,HotpotQA,2WikiMultiHopQAを用いて評価する。
実験結果から,本手法は解答精度に関して,すべてのベースラインに優れることがわかった。
また、強化学習はQA性能を向上させることで、モデルが高品質な合理性を生み出すのに役立ちます。
関連論文リスト
- Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。
従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。
本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-04-05T14:13:55Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Prompting as Probing: Using Language Models for Knowledge Base
Construction [1.6050172226234583]
我々は,2020年にOpenAIが提案した大規模言語モデルであるGPT-3を利用したProP(Prompting as Probing)を提案する。
ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。
評価の結果,提案手法は最終的な予測精度を大幅に向上させることが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-23T16:03:50Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。