論文の概要: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09214v3
- Date: Sun, 7 Apr 2024 19:17:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:15:45.659473
- Title: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models
- Title(参考訳): Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解
- Authors: Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu, Hongxia Xu, Jintai Chen, Jian Wu,
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
- 参考スコア(独自算出の注目度): 20.28989820878285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable advancements in natural language processing. However, the massive scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained environments. While techniques such as chain-of-thought (CoT) distillation have displayed promise in distilling LLMs into small language models (SLMs), there is a risk that distilled SLMs may still inherit flawed reasoning and hallucinations from LLMs. To address these issues, we propose a twofold methodology: First, we introduce a novel method for distilling the self-evaluation capability from LLMs into SLMs, aiming to mitigate the adverse effects of flawed reasoning and hallucinations inherited from LLMs. Second, we advocate for distilling more comprehensive thinking by incorporating multiple distinct CoTs and self-evaluation outputs, to ensure a more thorough and robust knowledge transfer into SLMs. Experiments on three NLP benchmarks demonstrate that our method significantly improves the performance of distilled SLMs, offering a new perspective for developing more effective and efficient SLMs in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。
しかし、これらのモデルの大規模かつ計算的な要求は、資源制約のある環境での実践的展開を考えると、非常に困難な課題である。
チェーン・オブ・ソート (CoT) 蒸留のような技術は, LLMを小言語モデル (SLM) に蒸留する可能性を示しているが, 蒸留したSLMがLLMの欠点や幻覚を継承するリスクがある。
まず, LLM から SLM への自己評価能力を蒸留する方法を提案し, 欠陥のある推論や LLM から受け継いだ幻覚の悪影響を軽減することを目的とした。
第2に,複数の異なるCoTと自己評価出力を組み込むことで,より包括的で堅牢な知識のSLMへの伝達を保証することで,より包括的な思考の蒸留を提唱する。
3つのNLPベンチマーク実験により, 蒸留SLMの性能は大幅に向上し, 資源制約環境下でより効率的かつ効率的なSLMの開発に向けた新たな視点が得られた。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。
良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-19T14:00:39Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。