Fugu-MT 論文翻訳(概要): Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach

論文の概要: Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach

arxiv url: http://arxiv.org/abs/2408.07238v1
Date: Tue, 13 Aug 2024 23:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 14:35:46.745833
Title: Using Advanced LLMs to Enhance Smaller LLMs: An Interpretable Knowledge Distillation Approach
Title（参考訳）: より小型のLDMを実現するための高度なLDM--解釈可能な知識蒸留アプローチ
Authors: Tong Wang, K. Sudhir, Dat Hong,
Abstract要約: 高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れた性能を提供する。 LLMは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念が生じる。本稿では,より小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。
参考スコア（独自算出の注目度）: 6.154304269581415
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Advanced Large language models (LLMs) like GPT-4 or LlaMa 3 provide superior performance in complex human-like interactions. But they are costly, or too large for edge devices such as smartphones and harder to self-host, leading to security and privacy concerns. This paper introduces a novel interpretable knowledge distillation approach to enhance the performance of smaller, more economical LLMs that firms can self-host. We study this problem in the context of building a customer service agent aimed at achieving high customer satisfaction through goal-oriented dialogues. Unlike traditional knowledge distillation, where the "student" model learns directly from the "teacher" model's responses via fine-tuning, our interpretable "strategy" teaching approach involves the teacher providing strategies to improve the student's performance in various scenarios. This method alternates between a "scenario generation" step and a "strategies for improvement" step, creating a customized library of scenarios and optimized strategies for automated prompting. The method requires only black-box access to both student and teacher models; hence it can be used without manipulating model parameters. In our customer service application, the method improves performance, and the learned strategies are transferable to other LLMs and scenarios beyond the training set. The method's interpretabilty helps safeguard against potential harms through human audit.
Abstract（参考訳）: GPT-4やLlaMa 3のような高度な大規模言語モデル(LLM)は、複雑な人間のような相互作用において優れたパフォーマンスを提供する。しかし、それらは高価で、スマートフォンのようなエッジデバイスには大きすぎるし、セルフホストが難しいため、セキュリティやプライバシーの懸念がもたらされる。本稿では,企業が自己ホストできる小型で経済的なLLMの性能を高めるために,新しい解釈可能な知識蒸留手法を提案する。本研究では,顧客満足度を高めることを目的とした顧客サービスエージェント構築のコンテキストにおいて,目標志向の対話を通じてこの問題を考察する。従来の知識蒸留とは異なり、「学生」モデルは微調整によって「教師」モデルの反応から直接学習するが、我々の解釈可能な「戦略」指導アプローチでは、様々なシナリオにおいて生徒のパフォーマンスを改善するための戦略を提供する。この方法は、"シナリオ生成"ステップと"改善のための戦略"ステップを交互に行い、シナリオのカスタマイズされたライブラリと、自動プロンプトのための最適化された戦略を作成する。この方法は、生徒モデルと教師モデルの両方へのブラックボックスアクセスのみを必要とするため、モデルパラメータを操作することなく使用できる。当社のカスタマーサービスアプリケーションでは、この手法によりパフォーマンスが向上し、学習した戦略はトレーニングセット以外の他のLCMやシナリオに転送可能である。この方法の補間性は、人間の監査による潜在的な害に対する保護に役立つ。

関連論文リスト

When Words Outperform Vision: VLMs Can Self-Improve Via Text-Only Training For Human-Centered Decision Making [15.397582422113627]
実環境で動作するAIエージェントには、身体的意思決定が基本である。本研究では,マルチモーダルな人間中心意思決定タスクにおいて,オープンソースのビジュアル言語モデル(VLM)を評価する。
論文参考訳（メタデータ） (2025-03-21T09:25:23Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
SMART: Self-learning Meta-strategy Agent for Reasoning Tasks [44.45037694899524]
SMART(Self-learning Meta-Strategy Agent for Reasoning Tasks)は、LMが様々な推論タスクの最も効果的な戦略を学習し、選択できる新しいフレームワークである。我々は、戦略選択プロセスをマルコフ決定プロセスとしてモデル化し、強化学習による継続的自己改善を活用する。実験の結果,SMARTは外部ガイダンスを使わずに最適な戦略を選択する能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2024-10-21T15:55:04Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
Towards the Pedagogical Steering of Large Language Models for Tutoring: A Case Study with Modeling Productive Failure [36.83786872708736]
1対1の授業は、最も効果的な教育方法の1つである。先進的で効果的な学習設計であるProductive Failure (PF) に倣って, 高校数学のプロトタイプチューターを作成する。我々は,StratLがLLMの運営に成功し,生産的失敗の学習戦略に従うことを定量的に示す。
論文参考訳（メタデータ） (2024-10-03T16:15:41Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Large Language Model as a Policy Teacher for Training Reinforcement Learning Agents [16.24662355253529]
LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。 LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。 LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
論文参考訳（メタデータ） (2023-11-22T13:15:42Z)
Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations [70.7884839812069]
大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法について検討する。
論文参考訳（メタデータ） (2023-11-09T18:45:16Z)
LgTS: Dynamic Task Sampling using LLM-generated sub-goals for Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文参考訳（メタデータ） (2023-10-14T00:07:03Z)
Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。本稿では,この新技術について概観する。
論文参考訳（メタデータ） (2023-08-06T18:38:52Z)
Introspective Tips: Large Language Model for In-Context Decision Making [48.96711664648164]
我々は,大規模言語モデル(LLM)の自己最適化を促進するために,イントロスペクティブティップス(Introspective Tips)を採用している。本手法は,少数ショットとゼロショットの両方の学習状況において,エージェントの性能を向上させる。 TextWorldにおける100以上のゲームに関する実験は、我々のアプローチの優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2023-05-19T11:20:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。