Fugu-MT 論文翻訳(概要): Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data

論文の概要: Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data

arxiv url: http://arxiv.org/abs/2312.12832v1
Date: Wed, 20 Dec 2023 08:28:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:27:39.664907
Title: Turning Dust into Gold: Distilling Complex Reasoning Capabilities from LLMs by Leveraging Negative Data
Title（参考訳）: ダストを金に変える: 負のデータを利用したLCMからの複雑な推論能力の蒸留
Authors: Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Bin Sun, Xinglin Wang, Heda Wang, Kan Li
Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクでうまく機能しているが、それらのアクセシビリティと多くのパラメータは、実際に広範囲の応用を妨げる。正の試料以外の負の試料でLLMを蒸留するモデル特殊化フレームワークを提案する。我々は, LLMの蒸留における負データの役割を示すために, 算術的推論タスクにまたがる広範な実験を行った。
参考スコア（独自算出の注目度）: 15.088675135566646
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have performed well on various reasoning tasks, but their inaccessibility and numerous parameters hinder wide application in practice. One promising way is distilling the reasoning ability from LLMs to small models by the generated chain-of-thought reasoning paths. In some cases, however, LLMs may produce incorrect reasoning chains, especially when facing complex mathematical problems. Previous studies only transfer knowledge from positive samples and drop the synthesized data with wrong answers. In this work, we illustrate the merit of negative data and propose a model specialization framework to distill LLMs with negative samples besides positive ones. The framework consists of three progressive steps, covering from training to inference stages, to absorb knowledge from negative data. We conduct extensive experiments across arithmetic reasoning tasks to demonstrate the role of negative data in distillation from LLM.
Abstract（参考訳）: 大規模言語モデル(llm)は様々な推論タスクでうまく機能しているが、その到達可能性やパラメータの多さは、実際には幅広い応用を妨げる。一つの有望な方法は、LLMから小さなモデルへの推論能力を、生成された連鎖推論経路によって蒸留することである。しかし、いくつかのケースでは、LLMは特に複雑な数学的問題に直面している場合、誤った推論連鎖を生成する可能性がある。これまでの研究では、正のサンプルから知識を転送し、間違った回答で合成データをドロップするしかなかった。本研究は, 陰性データの利点を概説し, 正のサンプル以外の負のサンプルでLLMを蒸留するためのモデル特殊化フレームワークを提案する。このフレームワークは、トレーニングから推論段階までをカバーする3つの段階から成り、負のデータから知識を吸収する。 LLMの蒸留における負データの役割を示すために,算術的推論タスクにまたがる広範な実験を行った。

関連論文リスト

Can LLM-Driven Hard Negative Sampling Empower Collaborative Filtering? Findings and Potentials [9.668242919588199]
強い負のサンプルはモデル収束を加速し、決定境界を最適化する。本稿ではセマンティックネガティブサンプリングの概念を紹介する。協調信号によって制御される微調整LDMに基づくHNLMRecというフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-07T04:39:45Z)
How much do LLMs learn from negative examples? [2.510320860734906]
大規模な言語モデルが否定的な例にさらされるのは最終段階である。本稿では,LLMのトレーニングにおける負の例の役割について考察する。
論文参考訳（メタデータ） (2025-03-18T16:26:29Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-23T03:49:00Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T03:12:39Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文参考訳（メタデータ） (2024-02-19T14:00:39Z)
C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-02-17T11:28:08Z)
Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文参考訳（メタデータ） (2023-12-26T21:17:46Z)
Zero-Shot Question Answering over Financial Documents using Large Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。 LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文参考訳（メタデータ） (2023-11-19T16:23:34Z)
Mind's Mirror: Distilling Self-Evaluation Capability and Comprehensive Thinking from Large Language Models [20.28989820878285]
大規模言語モデル (LLM) は自然言語処理において顕著な進歩を遂げている。これらのモデルの大規模かつ計算的な要求は、資源に制約のある環境での実践的展開を考えると、大きな課題となる。
論文参考訳（メタデータ） (2023-11-15T18:56:23Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。