論文の概要: Small Language Models Fine-tuned to Coordinate Larger Language Models
improve Complex Reasoning
- arxiv url: http://arxiv.org/abs/2310.18338v2
- Date: Tue, 27 Feb 2024 13:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:57:47.075079
- Title: Small Language Models Fine-tuned to Coordinate Larger Language Models
improve Complex Reasoning
- Title(参考訳): 大規模言語モデルのコーディネートに微調整された小言語モデルは複雑な推論を改善する
- Authors: Gurusha Juneja, Subhabrata Dutta, Soumen Chakrabarti, Sunny Manchanda,
Tanmoy Chakraborty
- Abstract要約: 大きな言語モデル(LLM)は、印象的な推論能力を示すチェーン・オブ・シントを生成するように促された。
本稿では、分解生成器を用いて複雑な問題をより少ない推論ステップを必要とするサブプロブレムに分解するDaSLaMを紹介する。
本稿では,DaSLaMがスケール関数としての解の能力に制限されないことを示す。
- 参考スコア(独自算出の注目度): 41.03267013352519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) prompted to generate chain-of-thought (CoT)
exhibit impressive reasoning capabilities. Recent attempts at prompt
decomposition toward solving complex, multi-step reasoning problems depend on
the ability of the LLM to simultaneously decompose and solve the problem. A
significant disadvantage is that foundational LLMs are typically not available
for fine-tuning, making adaptation computationally prohibitive. We believe (and
demonstrate) that problem decomposition and solution generation are distinct
capabilites, better addressed in separate modules, than by one monolithic LLM.
We introduce DaSLaM, which uses a decomposition generator to decompose complex
problems into subproblems that require fewer reasoning steps. These subproblems
are answered by a solver. We use a relatively small (13B parameters) LM as the
decomposition generator, which we train using policy gradient optimization to
interact with a solver LM (regarded as black-box) and guide it through
subproblems, thereby rendering our method solver-agnostic. Evaluation on
multiple different reasoning datasets reveal that with our method, a 175
billion parameter LM (text-davinci-003) can produce competitive or even better
performance, compared to its orders-of-magnitude larger successor, GPT-4.
Additionally, we show that DaSLaM is not limited by the solver's capabilities
as a function of scale; e.g., solver LMs with diverse sizes give significant
performance improvement with our solver-agnostic decomposition technique.
Exhaustive ablation studies evince the superiority of our modular finetuning
technique over exorbitantly large decomposer LLMs, based on prompting alone.
- Abstract(参考訳): 大きな言語モデル(LLM)は、チェーン・オブ・シント(CoT)の生成を促し、素晴らしい推論能力を示します。
複雑で多段階の推論問題への迅速な分解の試みは、LLMが同時に分解し解決する能力に依存している。
重大な欠点は、基礎的なLLMは一般に微調整には利用できないことであり、適応が計算的に禁止されていることである。
問題分解とソリューション生成は別個のキャパレイトであり、1つのモノリシックなllmよりも別個のモジュールで対処する方がよいと確信している(そして実証する)。
我々は,分解生成器を用いて複雑な問題を,より少ない推論ステップを必要とする部分問題に分解するdaslamを紹介する。
これらの下位問題は解法によって解かれる。
比較的小さな (13B パラメータ) LM を分解生成器として使用し、政策勾配最適化を用いて(ブラックボックスとして無視される) LM と相互作用し、サブプロブレムを通して誘導する。
複数の異なる推論データセットの評価により,提案手法では1750億のパラメータLM(text-davinci-003)が,その大容量の後継であるGPT-4と比較して,競争力や性能を向上できることがわかった。
さらに,DaSLaMはスケールの関数としての解の能力に制限されないことを示し,例えば,様々な大きさの解のLMは,解の非依存分解技術による大幅な性能向上をもたらすことを示した。
排他的アブレーション研究は、非常に大きな分解器LLMよりもモジュラー微調整技術が優れていることを示す。
関連論文リスト
- Divide-or-Conquer? Which Part Should You Distill Your LLM? [40.563633582127316]
我々は、推論タスクを問題解決フェーズと問題解決フェーズに分解する同様の戦略を考案する。
戦略が単一ステージソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:28:46Z) - SoLA: Solver-Layer Adaption of LLM for Better Logic Reasoning [12.402431071735446]
そこで我々は,大言語モデルの新たな層としてソルバを導入し,新しいソルバ層適応法(SoLA)を提案する。
SoLAは、自然言語で記述された検索空間を理解し、高品質のローカルソリューションを特定することを目的としている。
既存の記号解法に対する一貫した性能を実証的に実証する。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Guiding Large Language Models with Divide-and-Conquer Program for
Discerning Problem Solving [30.189649864741888]
本稿では,優れた表現力を確保し,タスクの分解,サブタスクの解決,分解処理を解消するDivide-and-Conquerプログラムを提案する。
実験結果から,提案手法は中間誤りや誤認内容に悩まされるタスクにおいて,通常の手順よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2024-02-08T02:37:30Z) - Frugal LMs Trained to Invoke Symbolic Solvers Achieve
Parameter-Efficient Arithmetic Reasoning [36.8749786658624]
大規模言語モデル(LLM)は、スケールで発生した振る舞いとしてゼロショットの数学的推論能力を示す。
算術語問題を正規化テーマ解決タスクとして提案した場合,小さいLMでは合理的な算術的推論が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-09T13:20:49Z) - MAF: Multi-Aspect Feedback for Improving Reasoning in Large Language
Models [64.70153487607172]
言語モデル(LM)は、様々な自然言語タスクにおいて印象的なパフォーマンスを示している。
自然言語の推論に関しては、いまだに幻覚、誤った中間推論ステップの生成、数学的誤りなどの課題に直面している。
近年の研究では、フィードバックによる自己改善によるLMの強化に焦点が当てられている。
本研究では,凍結したLMや外部ツールなど,複数のフィードバックモジュールを統合する反復的改善フレームワークであるMulti-Aspect Feedbackを提案する。
論文 参考訳(メタデータ) (2023-10-19T02:32:39Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Is a Question Decomposition Unit All We Need? [20.66688303609522]
モデルを解くのが比較的容易な、より単純な質問の集合に、人間が難解な質問を分解できるかどうかを検討する。
我々は、様々な推論形式を含むデータセットを解析し、モデルの性能を大幅に改善することは実際に可能であることを発見した。
以上の結果から,Human-in-the-loop Question Decomposition (HQD) が大規模LM構築の代替となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-25T07:24:09Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。