Fugu-MT 論文翻訳(概要): LLMR: Knowledge Distillation with a Large Language Model-Induced Reward

論文の概要: LLMR: Knowledge Distillation with a Large Language Model-Induced Reward

arxiv url: http://arxiv.org/abs/2409.12500v1
Date: Thu, 19 Sep 2024 06:27:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 14:41:29.222865
Title: LLMR: Knowledge Distillation with a Large Language Model-Induced Reward
Title（参考訳）: LLMR:大規模言語モデルによるリワードによる知識蒸留
Authors: Dongheng Li, Yongchang Hao, Lili Mou,
Abstract要約: 大規模言語モデルは、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示すようになった。しかし、これらのモデルは一般的に計算コストが高く、資源制約のある環境では展開が困難である。大規模言語モデルから誘導される報酬関数に基づく新しい知識蒸留(KD)法であるLLMRを提案する。
参考スコア（独自算出の注目度）: 24.455147056857356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have become increasingly popular and demonstrated remarkable performance in various natural language processing (NLP) tasks. However, these models are typically computationally expensive and difficult to be deployed in resource-constrained environments. In this paper, we propose LLMR, a novel knowledge distillation (KD) method based on a reward function induced from large language models. We conducted experiments on multiple datasets in the dialogue generation and summarization tasks. Empirical results demonstrate that our LLMR approach consistently outperforms traditional KD methods in different tasks and datasets.
Abstract（参考訳）: 大規模言語モデルは、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示すようになった。しかし、これらのモデルは一般的に計算コストが高く、資源制約のある環境では展開が困難である。本稿では,大規模言語モデルから誘導される報酬関数に基づく新しい知識蒸留(KD)手法であるLLMRを提案する。対話生成と要約タスクにおける複数のデータセットの実験を行った。 LLMRアプローチが従来のKDメソッドをさまざまなタスクやデータセットで一貫して上回ることを示す実験結果が得られた。

関連論文リスト

Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
MoD: A Distribution-Based Approach for Merging Large Language Models [0.0]
大規模言語モデル(LLM)は、多くの専門的なタスク固有の変種の開発を可能にした。 LLMをマージするための新しいアプローチであるTextitMixture of Distributions (MoD)フレームワークを提案する。従来の重量測定法とは異なり、MoDは個々のモデルの特殊能力を効果的に保存する。
論文参考訳（メタデータ） (2024-11-01T07:05:29Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文参考訳（メタデータ） (2024-04-11T04:22:15Z)
Evolving Knowledge Distillation with Large Language Models and Active Learning [46.85430680828938]
大規模言語モデル(LLM)は、様々なNLPタスクにまたがる顕著な機能を示している。従来の研究は、注釈付きデータを生成してLPMの知識をより小さなモデルに抽出しようと試みてきた。 EvoKD: Evolving Knowledge Distillationを提案する。これは、アクティブラーニングの概念を利用して、大規模言語モデルを用いたデータ生成のプロセスをインタラクティブに強化する。
論文参考訳（メタデータ） (2024-03-11T03:55:24Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文参考訳（メタデータ） (2023-01-12T08:01:53Z)
Data Augmentation for Spoken Language Understanding via Pretrained Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文参考訳（メタデータ） (2020-04-29T04:07:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。