論文の概要: Turning Dust into Gold: Distilling Complex Reasoning Capabilities from
LLMs by Leveraging Negative Data
- arxiv url: http://arxiv.org/abs/2312.12832v1
- Date: Wed, 20 Dec 2023 08:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:27:39.664907
- Title: Turning Dust into Gold: Distilling Complex Reasoning Capabilities from
LLMs by Leveraging Negative Data
- Title(参考訳): ダストを金に変える: 負のデータを利用したLCMからの複雑な推論能力の蒸留
- Authors: Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Bin Sun, Xinglin
Wang, Heda Wang, Kan Li
- Abstract要約: 大規模言語モデル(LLM)は、様々な推論タスクでうまく機能しているが、それらのアクセシビリティと多くのパラメータは、実際に広範囲の応用を妨げる。
正の試料以外の負の試料でLLMを蒸留するモデル特殊化フレームワークを提案する。
我々は, LLMの蒸留における負データの役割を示すために, 算術的推論タスクにまたがる広範な実験を行った。
- 参考スコア(独自算出の注目度): 15.088675135566646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have performed well on various reasoning tasks,
but their inaccessibility and numerous parameters hinder wide application in
practice. One promising way is distilling the reasoning ability from LLMs to
small models by the generated chain-of-thought reasoning paths. In some cases,
however, LLMs may produce incorrect reasoning chains, especially when facing
complex mathematical problems. Previous studies only transfer knowledge from
positive samples and drop the synthesized data with wrong answers. In this
work, we illustrate the merit of negative data and propose a model
specialization framework to distill LLMs with negative samples besides positive
ones. The framework consists of three progressive steps, covering from training
to inference stages, to absorb knowledge from negative data. We conduct
extensive experiments across arithmetic reasoning tasks to demonstrate the role
of negative data in distillation from LLM.
- Abstract(参考訳): 大規模言語モデル(llm)は様々な推論タスクでうまく機能しているが、その到達可能性やパラメータの多さは、実際には幅広い応用を妨げる。
一つの有望な方法は、LLMから小さなモデルへの推論能力を、生成された連鎖推論経路によって蒸留することである。
しかし、いくつかのケースでは、LLMは特に複雑な数学的問題に直面している場合、誤った推論連鎖を生成する可能性がある。
これまでの研究では、正のサンプルから知識を転送し、間違った回答で合成データをドロップするしかなかった。
本研究は, 陰性データの利点を概説し, 正のサンプル以外の負のサンプルでLLMを蒸留するためのモデル特殊化フレームワークを提案する。
このフレームワークは、トレーニングから推論段階までをカバーする3つの段階から成り、負のデータから知識を吸収する。
LLMの蒸留における負データの役割を示すために,算術的推論タスクにまたがる広範な実験を行った。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。
本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文 参考訳(メタデータ) (2025-01-02T12:09:17Z) - SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval [45.971786380884126]
Dense Search (DR) の性能は, 陰性サンプリングの品質に大きく影響される。
大規模言語モデル(LLM)の最近の進歩は、文脈的にリッチで多様な負のサンプルを生成することで革新的なソリューションを提供する。
本研究では,LLMを用いて高品質な硬質負のサンプルを合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:49:00Z) - What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。
本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文 参考訳(メタデータ) (2024-12-11T11:38:11Z) - Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Task Contamination: Language Models May Not Be Few-Shot Anymore [9.696290050028237]
大きな言語モデル(LLM)は、様々なゼロショットおよび少数ショットタスクで素晴らしいパフォーマンスを提供する。
しかし、ゼロショットや少数ショットの設定での成功はタスクの汚染に影響される可能性がある。
本稿では,LLMのゼロショット性能と少数ショット性能が,時間とともに時間とともにどのように変化したかを検討する。
論文 参考訳(メタデータ) (2023-12-26T21:17:46Z) - Zero-Shot Question Answering over Financial Documents using Large
Language Models [0.18749305679160366]
我々は,財務報告に対するマルチホップ数値推論を必要とする複雑な問題に答えるために,大規模言語モデル(LLM)に基づくアプローチを導入する。
LLMを誘導する新しいゼロショットプロンプトを使用して、必要な推論をPythonプログラムやドメイン固有言語にエンコードします。
論文 参考訳(メタデータ) (2023-11-19T16:23:34Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。