論文の概要: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09214v1
- Date: Wed, 15 Nov 2023 18:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:29:17.345848
- Title: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models
- Title(参考訳): Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解
- Authors: Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu,
Hongxia Xu, Jintai Chen, Jian Wu
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題を示す。
LLMに固有の自己評価能力を小型言語モデル(SLM)に蒸留する方法を提案する。
本手法は, 蒸留したSLMの性能を著しく向上させ, 人間の認知と密に整合したより小さなモデル開発への道に光を当てる。
- 参考スコア(独自算出の注目度): 21.052917741772042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable advancements in the
field of natural language processing. However, the sheer scale and
computational demands of these models present formidable challenges when
considering their practical deployment in resource-constrained contexts. While
techniques such as chain-of-thought (CoT) distillation have displayed promise
in distilling LLMs into small language models (SLMs), there is a risk that
distilled SLMs may still carry over flawed reasoning or hallucinations
inherited from their LLM counterparts. To address these issues, we propose a
twofold methodology: First, we introduce a novel method for distilling the
self-evaluation capability inherent in LLMs into SLMs, which aims to mitigate
the adverse effects of erroneous reasoning and reduce hallucinations. Second,
we advocate for a comprehensive distillation process that incorporates multiple
distinct chain-of-thought and self-evaluation paradigms and ensures a more
holistic and robust knowledge transfer into SLMs. Experiments on three NLP
benchmarks demonstrate that our method significantly improves the performance
of distilled SLMs and sheds light on the path towards developing smaller models
closely aligned with human cognition.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
しかし、これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題である。
チェーン・オブ・ソート (CoT) 蒸留のような技術は、LLMを小言語モデル (SLM) に蒸留する可能性を示しているが、蒸留したSLMがLLMから受け継いだ欠陥のある理由や幻覚を乗り越えるリスクがある。
まず, LLM に固有の自己評価能力を SLM に蒸留する方法を提案し, 誤った推論の悪影響を軽減し, 幻覚の低減を図る。
第2に,複数の異なる連鎖・自己評価パラダイムを取り入れた総合的な蒸留プロセスを提案し,より包括的で堅牢な知識伝達を実現する。
3つのNLPベンチマーク実験により, 蒸留したSLMの性能は大幅に向上し, 人間の認知と密に整合した小型モデル開発への道筋に光を当てた。
関連論文リスト
- Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by
Dissociating Language and Cognition [57.747888532651]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ELAD: Explanation-Guided Large Language Models Active Distillation [16.243249111524403]
LLM(Large Language Models)のデプロイメントと適用は、そのメモリ非効率性、計算要求、API推論の高コストによって妨げられている。
LLMの能力をより小さなモデルに伝達する伝統的な蒸留法は、知識が十分に伝達されているかどうかを判断できないことが多い。
本稿では,アノテーションコストとモデル性能のバランスを最適化するために,アクティブラーニング戦略を用いた説明誘導型ELAD(Explaination-Guided LLMs Active Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-20T15:47:59Z) - Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。
良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-19T14:00:39Z) - Beyond the Answers: Reviewing the Rationality of Multiple Choice
Question Answering for the Evaluation of Large Language Models [30.674058754196462]
本研究では,大規模言語モデル(LLM)の評価手法として,MCQA(Multiple Choice Question Answering)の合理性を検討する。
この期待とは対照的に,LLM応答の一貫性に顕著な相違が示唆された。
論文 参考訳(メタデータ) (2024-02-02T12:07:00Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。