論文の概要: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models
- arxiv url: http://arxiv.org/abs/2311.09214v1
- Date: Wed, 15 Nov 2023 18:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 14:29:17.345848
- Title: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive
Thinking from Large Language Models
- Title(参考訳): Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解
- Authors: Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu,
Hongxia Xu, Jintai Chen, Jian Wu
- Abstract要約: 大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題を示す。
LLMに固有の自己評価能力を小型言語モデル(SLM)に蒸留する方法を提案する。
本手法は, 蒸留したSLMの性能を著しく向上させ, 人間の認知と密に整合したより小さなモデル開発への道に光を当てる。
- 参考スコア(独自算出の注目度): 21.052917741772042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable advancements in the
field of natural language processing. However, the sheer scale and
computational demands of these models present formidable challenges when
considering their practical deployment in resource-constrained contexts. While
techniques such as chain-of-thought (CoT) distillation have displayed promise
in distilling LLMs into small language models (SLMs), there is a risk that
distilled SLMs may still carry over flawed reasoning or hallucinations
inherited from their LLM counterparts. To address these issues, we propose a
twofold methodology: First, we introduce a novel method for distilling the
self-evaluation capability inherent in LLMs into SLMs, which aims to mitigate
the adverse effects of erroneous reasoning and reduce hallucinations. Second,
we advocate for a comprehensive distillation process that incorporates multiple
distinct chain-of-thought and self-evaluation paradigms and ensures a more
holistic and robust knowledge transfer into SLMs. Experiments on three NLP
benchmarks demonstrate that our method significantly improves the performance
of distilled SLMs and sheds light on the path towards developing smaller models
closely aligned with human cognition.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
しかし、これらのモデルの厳密なスケールと計算要求は、資源制約のある文脈での実践的な展開を考えると、非常に困難な課題である。
チェーン・オブ・ソート (CoT) 蒸留のような技術は、LLMを小言語モデル (SLM) に蒸留する可能性を示しているが、蒸留したSLMがLLMから受け継いだ欠陥のある理由や幻覚を乗り越えるリスクがある。
まず, LLM に固有の自己評価能力を SLM に蒸留する方法を提案し, 誤った推論の悪影響を軽減し, 幻覚の低減を図る。
第2に,複数の異なる連鎖・自己評価パラダイムを取り入れた総合的な蒸留プロセスを提案し,より包括的で堅牢な知識伝達を実現する。
3つのNLPベンチマーク実験により, 蒸留したSLMの性能は大幅に向上し, 人間の認知と密に整合した小型モデル開発への道筋に光を当てた。
関連論文リスト
- Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。
本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文 参考訳(メタデータ) (2024-02-07T12:28:32Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。