論文の概要: Does Knowledge Distillation Matter for Large Language Model based Bundle Generation?
- arxiv url: http://arxiv.org/abs/2504.17220v1
- Date: Thu, 24 Apr 2025 03:18:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.233208
- Title: Does Knowledge Distillation Matter for Large Language Model based Bundle Generation?
- Title(参考訳): 大規模言語モデルに基づくバンドル生成のための知識蒸留は重要か?
- Authors: Kaidong Feng, Zhu Sun, Jie Yang, Hui Fang, Xinghua Qu, Wenyuan Liu,
- Abstract要約: 知識蒸留は有望な解決策であり、大きな教師モデルからコンパクトな学生モデルに専門知識を移す。
本研究では,バンドル生成のための知識蒸留手法を体系的に検討し,性能を保ちながら計算要求を最小限に抑えることを目的とした。
i) 知識(パターン,ルール,深い思考)を段階的に抽出し, (ii) 異なる戦略を通じて様々な量の蒸留知識を抽出し, (iii) ドメイン固有適応のための補完的なLCM適応技術と効率の向上を活用できる包括的KDフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.491190612749534
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLMs are increasingly explored for bundle generation, thanks to their reasoning capabilities and knowledge. However, deploying large-scale LLMs introduces significant efficiency challenges, primarily high computational costs during fine-tuning and inference due to their massive parameterization. Knowledge distillation (KD) offers a promising solution, transferring expertise from large teacher models to compact student models. This study systematically investigates knowledge distillation approaches for bundle generation, aiming to minimize computational demands while preserving performance. We explore three critical research questions: (1) how does the format of KD impact bundle generation performance? (2) to what extent does the quantity of distilled knowledge influence performance? and (3) how do different ways of utilizing the distilled knowledge affect performance? We propose a comprehensive KD framework that (i) progressively extracts knowledge (patterns, rules, deep thoughts); (ii) captures varying quantities of distilled knowledge through different strategies; and (iii) exploits complementary LLM adaptation techniques (in-context learning, supervised fine-tuning, combination) to leverage distilled knowledge in small student models for domain-specific adaptation and enhanced efficiency. Extensive experiments provide valuable insights into how knowledge format, quantity, and utilization methodologies collectively shape LLM-based bundle generation performance, exhibiting KD's significant potential for more efficient yet effective LLM-based bundle generation.
- Abstract(参考訳): LLMは、その推論能力と知識のおかげで、バンドル生成のためにますます研究されている。
しかし,大規模なLCMの展開は,大規模なパラメータ化による微調整や推論の際の計算コストの増大など,大きな効率上の課題をもたらす。
知識蒸留(KD)は有望なソリューションであり、大きな教師モデルからコンパクトな学生モデルに専門知識を移す。
本研究では,バンドル生成のための知識蒸留手法を体系的に検討し,性能を保ちながら計算要求を最小限に抑えることを目的とした。
1) KD の形式はバンドル生成性能にどのように影響するか?
2)蒸留知識の量は、どの程度の性能に影響を及ぼすか。
(3)蒸留知識の活用方法はパフォーマンスにどのように影響するか?
包括的KDフレームワークを提案する。
(i)知識(パターン、規則、深い思考)を段階的に抽出する
二 異なる戦略により様々な量の蒸留知識を捕えること。
3)LLM適応技術(コンテキスト学習,教師付き微調整,組み合わせ)を利用して,小学生モデルにおける蒸留知識を活用し,ドメイン固有適応と効率の向上を図る。
広範にわたる実験は、知識形式、量、利用方法がLLMベースのバンドル生成性能を総合的に形成し、より効率的かつ効果的なLLMベースのバンドル生成のためのKDの有意義な可能性を示す貴重な知見を提供する。
関連論文リスト
- KaLM: Knowledge-aligned Autoregressive Language Modeling via Dual-view Knowledge Graph Contrastive Learning [74.21524111840652]
本稿では、textitKnowledge-aligned Language Modeling アプローチである textbfKaLM を提案する。
明示的な知識アライメントと暗黙的な知識アライメントという共同目的を通じて、KG知識と整合するように、自己回帰的な大規模言語モデルを微調整する。
特に,本手法は知識駆動型タスクの評価において顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2024-12-06T11:08:24Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Unlock the Power of Frozen LLMs in Knowledge Graph Completion [45.80451763142032]
大きな言語モデル(LLM)は、強力なコンテキストモデリングによって大きなコーパスから広範な知識を学ぶ。
我々は、LLMの中間層を刺激するためにプロンプトを利用することで、コンテキスト対応の知識三重項の隠蔽状態を捉える。
次に、これらの隠れ状態にデータ効率の分類器をトレーニングし、KGCにおける凍結LDMの本質的な機能を利用する。
論文 参考訳(メタデータ) (2024-08-13T10:15:55Z) - Survey on Knowledge Distillation for Large Language Models: Methods, Evaluation, and Application [21.555902498178387]
大規模言語モデル(LLM)は様々な領域で例外的な機能を示しており、学術と産業の両方から大きな関心を集めている。
精度を維持しながら言語モデルを圧縮する努力は研究の焦点となっている。
知識蒸留は、性能を著しく損なうことなく推論速度を向上する有効な手法として登場した。
論文 参考訳(メタデータ) (2024-07-02T02:14:42Z) - LLM-based Knowledge Pruning for Time Series Data Analytics on Edge-computing Devices [23.18319883190927]
時系列学習のための新しいパラダイムであるKP(Knowledge Pruning)を提案する。
他の方法とは異なり、我々のKPは冗長な知識を掘り起こし、関連する知識をターゲットモデルにのみ蒸留することを目的としています。
提案したKPにより、軽量ネットワークは適切な知識を効果的に学習し、良好な性能を低コストで達成することができる。
論文 参考訳(メタデータ) (2024-06-13T02:51:18Z) - A Survey on Knowledge Distillation of Large Language Models [99.11900233108487]
知識蒸留(KD)は、高度な能力をオープンソースモデルに転送するための重要な方法論である。
本稿では,大規模言語モデル(LLM)の領域におけるKDの役割を包括的に調査する。
論文 参考訳(メタデータ) (2024-02-20T16:17:37Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Knowledgeable In-Context Tuning: Exploring and Exploiting Factual Knowledge for In-Context Learning [37.22349652230841]
大規模言語モデル(LLM)は、テキストベースのプロンプトとしてラベル付きトレーニング例を条件にすることで、コンテキスト内学習(ICL)を可能にする。
本稿では、3つの中核面におけるICLの性能に事実知識が不可欠であることを実証する。
In-Context Tuning (KICT) フレームワークを導入し,ICLの性能向上を図る。
論文 参考訳(メタデータ) (2023-09-26T09:06:39Z) - Knowledge-Augmented Reasoning Distillation for Small Language Models in
Knowledge-Intensive Tasks [90.11273439036455]
大規模言語モデル(LLM)は知識集約推論タスクにおいて有望なパフォーマンスを示している。
外部知識ベースから得られた知識を付加したLPMから理性を生成するための,小型LMを微調整する新しい手法であるKARDを提案する。
我々は,KARDが知識集約型推論データセットにおいて,小さなT5モデルとGPTモデルの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。