論文の概要: Logic Distillation: Learning from Code Function by Function for Planning and Decision-making
- arxiv url: http://arxiv.org/abs/2407.19405v1
- Date: Sun, 28 Jul 2024 05:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:22:10.246282
- Title: Logic Distillation: Learning from Code Function by Function for Planning and Decision-making
- Title(参考訳): 論理蒸留:計画と意思決定のための関数によるコード関数からの学習
- Authors: Dong Chen, Shilin Zhang, Fei Gao, Yueting Zhuang, Siliang Tang, Qidong Liu, Mingliang Xu,
- Abstract要約: 大規模言語モデル(LLM)は、その強力な論理的推論能力のために注目を集めている。
知識蒸留(KD)は、L-LLMsの能力をS-LLMsに与えることを目的としており、S-LLMsは単にL-LLMsの出力を模倣するだけである。
本稿では, 論理蒸留 (LD) と呼ばれる新しいフレームワークを提案し, その課題に対処する。
- 参考スコア(独自算出の注目度): 76.78877200879076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have garnered increasing attention owing to their powerful logical reasoning capabilities. Generally, larger LLMs (L-LLMs) that require paid interfaces exhibit significantly superior performance compared to smaller LLMs (S-LLMs) that can be deployed on a variety of devices. Knowledge distillation (KD) aims to empower S-LLMs with the capabilities of L-LLMs, while S-LLMs merely mimic the outputs of L-LLMs, failing to get the powerful logical reasoning capabilities. Consequently, S-LLMs are helpless when it comes to planning and decision-making tasks that require logical reasoning capabilities. To tackle the identified challenges, we propose a novel framework called Logic Distillation (LD). Initially, LD employs L-LLMs to instantiate complex instructions into discrete functions and illustrates their usage to establish a function base. Subsequently, based on the function base, LD fine-tunes S-LLMs to learn the logic employed by L-LLMs in planning and decision-making. During testing, LD utilizes a retriever to identify the top-$K$ relevant functions based on instructions and current states, which will be selected and invoked by S-LLMs. Ultimately, S-LLMs yield planning and decision-making outcomes, function by function. Relevant experiments demonstrate that with the assistance of LD, S-LLMs can achieve outstanding results in planning and decision-making tasks, comparable to, or even surpassing, those of L-LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その強力な論理的推論能力のために注目を集めている。
一般に、有償インターフェースを必要とするより大きなLLM(L-LLMs)は、様々なデバイスにデプロイできる小さなLLM(S-LLMs)よりもはるかに優れた性能を示す。
知識蒸留(KD)は、L-LLMの能力でS-LLMを増強することを目的としており、S-LLMは単にL-LLMの出力を模倣するだけであり、強力な論理的推論能力を得ることができない。
その結果、S-LLMは論理的推論能力を必要とする計画や意思決定のタスクでは役に立たない。
これらの課題に対処するため,我々は論理蒸留(LD)と呼ばれる新しいフレームワークを提案する。
LDは当初、複雑な命令を離散関数にインスタンス化するためにL-LLMを使用し、関数ベースを確立するためにそれらの使い方を説明している。
その後、関数ベースに基づいて、LDがS-LLMを微調整し、L-LLMが計画と意思決定に使用するロジックを学習する。
テスト中、LDはレトリバーを使用して、S-LLMによって選択され、呼び出される命令と現在の状態に基づいて、上位$K$の関連関数を識別する。
最終的に、S-LLMは計画と意思決定の結果、機能によって得られる。
関連する実験は、LDの助けを借りて、S-LLMは、L-LLMに匹敵する、あるいは超える、計画と意思決定のタスクにおいて、卓越した結果を達成できることを示した。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Adaptive Reinforcement Learning Planning: Harnessing Large Language Models for Complex Information Extraction [37.12990710443406]
大規模言語モデル(LLM)に関する既存の研究は、多段階計画により情報抽出タスクを解くことができることを示している。
複雑な抽出タスクを分解して段階的に抽出することで,LLMの性能を効果的に向上させることができる。
本稿では,LLMに基づく情報抽出のための2段階多段階手法を提案し,多段階計画を実行するためにRLフレームワークを採用する。
論文 参考訳(メタデータ) (2024-06-17T12:11:01Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - DiLA: Enhancing LLM Tool Learning with Differential Logic Layer [11.810200077863172]
本稿では,ネットワーク層の前方・後方通過に論理的制約を組み込むディファレンシャル・ロジック・レイヤ支援言語モデリング(DiLA)手法を提案する。
2つの古典的推論問題に対するDiLAの性能評価を行い、既存のプロンプトベースおよびソルバ支援アプローチに対する一貫した性能を実証した。
論文 参考訳(メタデータ) (2024-02-19T07:38:57Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。