論文の概要: Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach
- arxiv url: http://arxiv.org/abs/2408.07238v1
- Date: Tue, 13 Aug 2024 23:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:35:46.745833
- Title: Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach
- Title(参考訳): より小型のLDMを実現するための高度なLDM--解釈可能な知識蒸留アプローチ
- Authors: Tong Wang, K. Sudhir, Dat Hong,
- Abstract要約: 高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れた性能を提供する。
LLMは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念が生じる。
本稿では,より小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 6.154304269581415
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advanced Large language models (LLMs) like GPT-4 or LlaMa 3 provide superior performance in complex human-like interactions. But they are costly, or too large for edge devices such as smartphones and harder to self-host, leading to security and privacy concerns. This paper introduces a novel interpretable knowledge distillation approach to enhance the performance of smaller, more economical LLMs that firms can self-host. We study this problem in the context of building a customer service agent aimed at achieving high customer satisfaction through goal-oriented dialogues. Unlike traditional knowledge distillation, where the "student" model learns directly from the "teacher" model's responses via fine-tuning, our interpretable "strategy" teaching approach involves the teacher providing strategies to improve the student's performance in various scenarios. This method alternates between a "scenario generation" step and a "strategies for improvement" step, creating a customized library of scenarios and optimized strategies for automated prompting. The method requires only black-box access to both student and teacher models; hence it can be used without manipulating model parameters. In our customer service application, the method improves performance, and the learned strategies are transferable to other LLMs and scenarios beyond the training set. The method's interpretabilty helps safeguard against potential harms through human audit.
- Abstract(参考訳): GPT-4やLlaMa 3のような高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れたパフォーマンスを提供する。
しかし、それらは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念がもたらされる。
本稿では,企業が自己ホストできる小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
本研究では,顧客満足度を高めることを目的とした顧客サービスエージェント構築のコンテキストにおいて,目標志向の対話を通じてこの問題を考察する。
従来の知識蒸留とは異なり、「学生」モデルは微調整によって「教師」モデルの反応から直接学習するが、我々の解釈可能な「戦略」指導アプローチでは、様々なシナリオにおいて生徒のパフォーマンスを改善するための戦略を提供する。
この方法は、"シナリオ生成"ステップと"改善のための戦略"ステップを交互に行い、シナリオのカスタマイズされたライブラリと、自動プロンプトのための最適化された戦略を作成する。
この方法は、生徒モデルと教師モデルの両方へのブラックボックスアクセスのみを必要とするため、モデルパラメータを操作することなく使用できる。
当社のカスタマーサービスアプリケーションでは、この手法によりパフォーマンスが向上し、学習した戦略はトレーニングセット以外の他のLCMやシナリオに転送可能である。
この方法の補間性は、人間の監査による潜在的な害に対する保護に役立つ。
関連論文リスト
- One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Unmemorization in Large Language Models via Self-Distillation and
Deliberate Imagination [58.36408867180233]
大規模言語モデル(LLM)は、プライバシー侵害や機密データの不要な露出といった重要な問題に苦慮している。
我々は、LLMアンラーニングの文脈において、意図的な想像力という新しいアプローチを導入する。
本研究は,異なるモデルとサイズにまたがるこのアプローチの有用性を示し,パラメータ効率の良い微調整を行った。
論文 参考訳(メタデータ) (2024-02-15T16:21:14Z) - AutoTutor meets Large Language Models: A Language Model Tutor with Rich Pedagogy and Guardrails [43.19453208130667]
大規模言語モデル(LLM)は、自動質問生成からエッセイ評価まで、いくつかのユースケースを教育で発見した。
本稿では,Large Language Models (LLMs) を用いて知的チューリングシステムを構築する可能性について検討する。
MWPTutor は LLM を用いて事前定義された有限状態トランスデューサの状態空間を補う。
論文 参考訳(メタデータ) (2024-02-14T14:53:56Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-22T13:15:42Z) - Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。
しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。
本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文 参考訳(メタデータ) (2023-11-09T18:45:16Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - Scalable and Equitable Math Problem Solving Strategy Prediction in Big
Educational Data [2.86829428083307]
我々はMVecと呼ばれる埋め込みを開発し、学生の熟達度に基づいて表現を学習する。
次に、これらの埋め込みを非パラメトリッククラスタリング法でクラスタ化する。
提案手法は,大規模データセットの小さなサンプルをトレーニングすることで,高精度にスケールアップ可能であることを示す。
論文 参考訳(メタデータ) (2023-08-07T19:51:10Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。
本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。
TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-05-19T11:20:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。