Fugu-MT 論文翻訳(概要): Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models

論文の概要: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models

arxiv url: http://arxiv.org/abs/2311.09214v3
Date: Sun, 7 Apr 2024 19:17:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 02:15:45.659473
Title: Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models
Title（参考訳）: Mind's Mirror: 自己評価能力の蒸留と大規模言語モデルからの理解
Authors: Weize Liu, Guocong Li, Kai Zhang, Bang Du, Qiyuan Chen, Xuming Hu, Hongxia Xu, Jintai Chen, Jian Wu,
Abstract要約: 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
参考スコア（独自算出の注目度）: 20.28989820878285
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable advancements in natural language processing. However, the massive scale and computational demands of these models present formidable challenges when considering their practical deployment in resource-constrained environments. While techniques such as chain-of-thought (CoT) distillation have displayed promise in distilling LLMs into small language models (SLMs), there is a risk that distilled SLMs may still inherit flawed reasoning and hallucinations from LLMs. To address these issues, we propose a twofold methodology: First, we introduce a novel method for distilling the self-evaluation capability from LLMs into SLMs, aiming to mitigate the adverse effects of flawed reasoning and hallucinations inherited from LLMs. Second, we advocate for distilling more comprehensive thinking by incorporating multiple distinct CoTs and self-evaluation outputs, to ensure a more thorough and robust knowledge transfer into SLMs. Experiments on three NLP benchmarks demonstrate that our method significantly improves the performance of distilled SLMs, offering a new perspective for developing more effective and efficient SLMs in resource-constrained environments.
Abstract（参考訳）: 大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。しかし、これらのモデルの大規模かつ計算的な要求は、資源制約のある環境での実践的展開を考えると、非常に困難な課題である。チェーン・オブ・ソート (CoT) 蒸留のような技術は, LLMを小言語モデル (SLM) に蒸留する可能性を示しているが, 蒸留したSLMがLLMの欠点や幻覚を継承するリスクがある。まず, LLM から SLM への自己評価能力を蒸留する方法を提案し, 欠陥のある推論や LLM から受け継いだ幻覚の悪影響を軽減することを目的とした。第2に,複数の異なるCoTと自己評価出力を組み込むことで,より包括的で堅牢な知識のSLMへの伝達を保証することで,より包括的な思考の蒸留を提唱する。 3つのNLPベンチマーク実験により, 蒸留SLMの性能は大幅に向上し, 資源制約環境下でより効率的かつ効率的なSLMの開発に向けた新たな視点が得られた。

関連論文リスト

DRE: An Effective Dual-Refined Method for Integrating Small and Large Language Models in Open-Domain Dialogue Evaluation [21.229539297323488]
大きな言語モデル(LLM)は多くのタスクで優れていますが、複数の有効な応答が存在するあいまいなシナリオに苦労しています。小型言語モデル (SLM) はそのようなシナリオにおいて堅牢性を示すが、誤解を招くことや敵対的な入力に影響を受けやすい。本稿では,SLM と LLM を適応重み付けにより統合する SLIDE (Small and Large Integrated for Dialogue Evaluation) を提案する。
論文参考訳（メタデータ） (2025-06-04T23:41:31Z)
Enhanced Multimodal Aspect-Based Sentiment Analysis by LLM-Generated Rationales [7.119479942471737]
既存の方法は、画像とテキストの両方からアスペクトや感情に関連する情報を集めるために、事前訓練された小さな言語モデル(SLM)に依存している。我々は,SLMの意思決定能力とMABSAのためのLLMが提供する付加情報を組み合わせた新しいフレームワークLRSAを提案する。
論文参考訳（メタデータ） (2025-05-20T15:28:26Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T03:12:39Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [68.83624133567213]
そこで本研究では,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。また, モデルに対して, 合成推論を積極的に行うための, 単純かつ効果的な手法であるアクティブ推論(AD)を提案する。
論文参考訳（メタデータ） (2024-04-19T15:53:27Z)
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-04-18T15:21:34Z)
Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文参考訳（メタデータ） (2024-04-14T13:19:40Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark [41.68821233828375]
本稿では,MLLM-as-a-Judgeと呼ばれる新しいベンチマークを導入し,多様なモダリティにまたがる審査員を支援するMLLMの能力を評価する。本研究は, MLLMがPair Comparisonにおいて顕著な人間ライクな識別を示す一方で, Scoring EvaluationとBatch Rankingにおいて, 人間の嗜好とは大きく異なることを明らかにした。
論文参考訳（メタデータ） (2024-02-07T12:28:32Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。