Fugu-MT 論文翻訳(概要): Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

論文の概要: Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

arxiv url: http://arxiv.org/abs/2405.13448v1
Date: Wed, 22 May 2024 08:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 00:55:07.023385
Title: Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
Title（参考訳）: タスク対応カリキュラムプランニングによる大規模言語モデルの蒸留命令追従能力
Authors: Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang,
Abstract要約: 本稿では,TAPIR(Destruction Refinement)のためのタスク対応カリキュラム計画について紹介する。 TAPIRは、バランスの取れたタスク分布と動的難易度調整を備えた多層蒸留フレームワークである。 AlpacaEval 2.0 や MT-Bench など,広く知られている2つのベンチマークを用いて,TAPIR を厳格に評価した。
参考スコア（独自算出の注目度）: 12.651588927599441
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The process of instruction tuning aligns pre-trained large language models (LLMs) with open-domain instructions and human-preferred responses. While several studies have explored autonomous approaches to distilling and annotating instructions from more powerful proprietary LLMs, such as ChatGPT, they often neglect the impact of task distributions and the varying difficulty of instructions of the training sets. This oversight can lead to imbalanced knowledge capabilities and poor generalization powers of small student LLMs. To address this challenge, we introduce Task-Aware Curriculum Planning for Instruction Refinement (TAPIR), a multi-round distillation framework with balanced task distributions and dynamic difficulty adjustment. This approach utilizes an oracle LLM to select instructions that are difficult for a student LLM to follow and distill instructions with balanced task distributions. By incorporating curriculum planning, our approach systematically escalates the difficulty levels, progressively enhancing the student LLM's capabilities. We rigorously evaluate TAPIR using two widely recognized benchmarks, including AlpacaEval 2.0 and MT-Bench. The empirical results demonstrate that the student LLMs, trained with our method and less training data, outperform larger instruction-tuned models and strong distillation baselines. The improvement is particularly notable in complex tasks, such as logical reasoning and code generation.
Abstract（参考訳）: インストラクションチューニングのプロセスは、事前訓練された大規模言語モデル(LLM)にオープンドメイン命令と人間優先応答をアライメントする。いくつかの研究はChatGPTのようなより強力なLLMからの指示を蒸留し、注釈付けするための自律的なアプローチを研究してきたが、それらはしばしばタスク分布の影響や訓練セットの指示の難しさを無視している。この監視は、小学生のLLMの不均衡な知識能力や一般化能力に繋がる可能性がある。この課題に対処するために、バランスの取れたタスク分布と動的難易度調整を備えた多層蒸留フレームワークであるTAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。このアプローチでは,学生のLLMがタスク分布のバランスを保った命令を追従し,蒸留することが困難な命令を選択するために,オラクル LLM を用いる。カリキュラムプランニングを取り入れることで,難易度を体系的に増大させ,学生LLMの能力を向上させる。 AlpacaEval 2.0 や MT-Bench など,広く知られている2つのベンチマークを用いて,TAPIR を厳格に評価した。実験結果から,本手法で学習した学生のLLMは,学習データが少なく,より大きな指導訓練モデルと強い蒸留ベースラインに優れていたことが示唆された。この改善は、論理的推論やコード生成といった複雑なタスクで特に顕著である。

関連論文リスト

The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文参考訳（メタデータ） (2025-01-15T10:57:55Z)
MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文参考訳（メタデータ） (2024-07-01T17:53:35Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。