Fugu-MT 論文翻訳(概要): Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought

論文の概要: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought

arxiv url: http://arxiv.org/abs/2404.03414v1
Date: Thu, 4 Apr 2024 12:46:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 14:51:30.509253
Title: Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
Title（参考訳）: 小言語モデルは大規模言語モデルの改善に役立つか?:LM-Guided Chain-of-Thought
Authors: Jooyoung Lee, Fan Yang, Thanh Tran, Qian Hu, Emre Barut, Kai-Wei Chang, Chengwei Su,
Abstract要約: タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
参考スコア（独自算出の注目度）: 51.240387516059535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel framework, LM-Guided CoT, that leverages a lightweight (i.e., <1B) language model (LM) for guiding a black-box large (i.e., >10B) LM in reasoning tasks. Specifically, the lightweight LM first generates a rationale for each input instance. The Frozen large LM is then prompted to predict a task output based on the rationale generated by the lightweight LM. Our approach is resource-efficient in the sense that it only requires training the lightweight LM. We optimize the model through 1) knowledge distillation and 2) reinforcement learning from rationale-oriented and task-oriented reward signals. We assess our method with multi-hop extractive question answering (QA) benchmarks, HotpotQA, and 2WikiMultiHopQA. Experimental results show that our approach outperforms all baselines regarding answer prediction accuracy. We also find that reinforcement learning helps the model to produce higher-quality rationales with improved QA performance.
Abstract（参考訳）: そこで我々は,軽量な (<1B) 言語モデル (LM) を利用して,ブラックボックスの大きい (>10B) LM を推論タスクに導く新しいフレームワーク LM-Guided CoT を提案する。具体的には、軽量LMはまず、入力インスタンス毎に論理を生成する。凍結された大きなLMは、軽量LMが生成した論理に基づいてタスク出力を予測するように促される。私たちのアプローチは、軽量LMのトレーニングのみを必要とするという意味で、リソース効率が高いのです。私たちはモデルを最適化します 1【知識の蒸留・蒸留】 2)理性指向とタスク指向の報酬信号からの強化学習。提案手法をマルチホップ抽出質問応答(QA)ベンチマーク,HotpotQA,2WikiMultiHopQAを用いて評価する。実験結果から,本手法は解答精度に関して,すべてのベースラインに優れることがわかった。また、強化学習はQA性能を向上させることで、モデルが高品質な合理性を生み出すのに役立ちます。

関連論文リスト

Scaling Latent Reasoning via Looped Language Models [109.64154923739842]
事前学習されたループ言語モデル(LoopLM)のファミリーであるOuroを提示し、オープンソース化する。 Ouro は (i) 潜時空間における反復計算, (ii) 学習深度割り当てのためのエントロピー規則化された目的, (iii) 7.7T トークンへのスケーリングによる事前学習段階への推論を構築する。
論文参考訳（メタデータ） (2025-10-29T17:45:42Z)
Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-05-26T07:58:17Z)
ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning [77.41383117199227]
我々はポリシーMTモデルの翻訳結果と強力なLRMを比較するための新たな報酬モデリング手法を設計する。 Qwen2.5-7B-インストラクトをバックボーンとして、トレーニングされたモデルは、文学翻訳における新しい最先端のパフォーマンスを達成する。 11言語による多言語設定にメソッドを拡張します。
論文参考訳（メタデータ） (2025-05-19T11:34:47Z)
Self-Steering Language Models [113.96916935955842]
DisCIPL は "self-steering" 言語モデル (LM) の手法である。 DisCIPLは、Followerモデルの集団によって実行されるタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
Prompting Large Language Models with Rationale Heuristics for Knowledge-based Visual Question Answering [6.745948705869626]
我々は,先行手法がLarge Language Models (LLM) の容量を十分に活性化していないことを論じる。本稿では,知識に基づく VQA のための LLM と Rationale Heuristics を併用した PLRH というフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-22T09:14:35Z)
Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文参考訳（メタデータ） (2024-07-25T17:59:16Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
BEAR: A Unified Framework for Evaluating Relational Knowledge in Causal and Masked Language Models [2.2863439039616127]
調査は、言語モデル(LM)が事前学習中に関係知識を習得した度合いを評価する。従来のアプローチは、事前学習するLMで使用される目的関数に依存していた。本稿では,ある文章文のログ類似度を推定する,LM固有の能力を利用する手法を提案する。
論文参考訳（メタデータ） (2024-04-05T14:13:55Z)
Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。 RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文参考訳（メタデータ） (2024-03-07T16:36:29Z)
Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。 LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文参考訳（メタデータ） (2023-10-23T01:47:29Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)
Prompting as Probing: Using Language Models for Knowledge Base Construction [1.6050172226234583]
我々は,2020年にOpenAIが提案した大規模言語モデルであるGPT-3を利用したProP(Prompting as Probing)を提案する。 ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。評価の結果,提案手法は最終的な予測精度を大幅に向上させることが可能であることが示唆された。
論文参考訳（メタデータ） (2022-08-23T16:03:50Z)
Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。正規化項を追加し、TMの出力分布をLMの下で予測可能とする。 2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文参考訳（メタデータ） (2020-04-30T16:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。