論文の概要: SCOTT: Self-Consistent Chain-of-Thought Distillation
- arxiv url: http://arxiv.org/abs/2305.01879v3
- Date: Sat, 15 Jul 2023 01:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 22:30:13.792959
- Title: SCOTT: Self-Consistent Chain-of-Thought Distillation
- Title(参考訳): SCOTT: 自己持続型耐火鎖蒸留
- Authors: Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang
Ren
- Abstract要約: 大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
- 参考スコア(独自算出の注目度): 41.58278470134286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LMs) beyond a certain scale, demonstrate the emergent
capability of generating free-text rationales for their predictions via
chain-of-thought (CoT) prompting. While CoT can yield dramatically improved
performance, such gains are only observed for sufficiently large LMs. Even more
concerning, there is little guarantee that the generated rationales are
consistent with LM's predictions or faithfully justify the decisions. In this
work, we propose a faithful knowledge distillation method to learn a small,
self-consistent CoT model from a teacher model that is orders of magnitude
larger. To form better supervision, we elicit rationales supporting the gold
answers from a large LM (teacher) by contrastive decoding, which encourages the
teacher to generate tokens that become more plausible only when the answer is
considered. To ensure faithful distillation, we use the teacher-generated
rationales to learn a student LM with a counterfactual reasoning objective,
which prevents the student from ignoring the rationales to make inconsistent
predictions. Experiments show that, while yielding comparable end-task
performance, our method can generate CoT rationales that are more faithful than
baselines do. Further analysis suggests that such a model respects the
rationales more when making decisions; thus, we can improve its performance
more by refining its rationales.
- Abstract(参考訳): 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。
CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。
さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。
本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。
教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。
忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。
実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。
さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。
本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文 参考訳(メタデータ) (2024-10-04T17:59:41Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Characterizing Large Language Models as Rationalizers of
Knowledge-intensive Tasks [6.51301154858045]
大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。
専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。
驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。
論文 参考訳(メタデータ) (2023-11-09T01:04:44Z) - Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step [133.60124577507727]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。
オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。
そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるChain-of-Thought Distillation (SCoTD)を紹介した。
論文 参考訳(メタデータ) (2023-06-24T20:15:07Z) - ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。
ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2023-05-12T10:07:12Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。