Fugu-MT 論文翻訳(概要): SCOTT: Self-Consistent Chain-of-Thought Distillation

論文の概要: SCOTT: Self-Consistent Chain-of-Thought Distillation

arxiv url: http://arxiv.org/abs/2305.01879v4
Date: Wed, 30 Aug 2023 21:28:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-01 20:20:01.551697
Title: SCOTT: Self-Consistent Chain-of-Thought Distillation
Title（参考訳）: SCOTT: 自己持続型耐火鎖蒸留
Authors: Peifeng Wang, Zhengyang Wang, Zheng Li, Yifan Gao, Bing Yin and Xiang Ren
Abstract要約: 大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
参考スコア（独自算出の注目度）: 68.40232422158569
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LMs) beyond a certain scale, demonstrate the emergent capability of generating free-text rationales for their predictions via chain-of-thought (CoT) prompting. While CoT can yield dramatically improved performance, such gains are only observed for sufficiently large LMs. Even more concerning, there is little guarantee that the generated rationales are consistent with LM's predictions or faithfully justify the decisions. In this work, we propose a faithful knowledge distillation method to learn a small, self-consistent CoT model from a teacher model that is orders of magnitude larger. To form better supervision, we elicit rationales supporting the gold answers from a large LM (teacher) by contrastive decoding, which encourages the teacher to generate tokens that become more plausible only when the answer is considered. To ensure faithful distillation, we use the teacher-generated rationales to learn a student LM with a counterfactual reasoning objective, which prevents the student from ignoring the rationales to make inconsistent predictions. Experiments show that, while yielding comparable end-task performance, our method can generate CoT rationales that are more faithful than baselines do. Further analysis suggests that such a model respects the rationales more when making decisions; thus, we can improve its performance more by refining its rationales.
Abstract（参考訳）: 大規模な言語モデル(LM)は、チェーン・オブ・シークレット(CoT)のプロンプトを通じて、予測のための自由テキスト論理を創発的に生成する能力を示している。 CoTは劇的に性能が向上するが、そのような利得は十分に大きなLMに対してのみ観測される。さらには、生成された合理性がlmの予測と一致しているか、あるいは決定を忠実に正当化する保証がほとんどない。本研究では,教師モデルから,規模が桁違いの小さい自己整合CoTモデルを学習するための,忠実な知識蒸留法を提案する。教師は, より優れた指導を行うために, 対照的な復号化によって, 大規模LM(教師)から金の回答を支持する合理性を付与し, 回答が検討された場合にのみ, より信頼性の高いトークンを生成するように促す。忠実な蒸留を確保するために,教師生成の合理性を用いて,非事実的推論目的の学生lmを学習し,その合理性を無視して矛盾する予測を行うことを防止する。実験により, エンドタスク性能に匹敵する結果が得られる一方で, ベースラインよりも忠実なCoT論理を生成できることがわかった。さらなる分析は、そのようなモデルが決定を下す際に、より合理的を尊重していることを示唆している。

関連論文リスト

Towards Efficient CoT Distillation: Self-Guided Rationale Selector for Better Performance with Fewer Rationales [21.91556878201084]
チェイン・オブ・シント(CoT)蒸留は, より大規模な教師モデルから多段階の推論能力を伝達することにより, 小型言語モデル(SLM)推論を強化することを目的としている。既存の作業は、主にデータ量に焦点を当てた合理的な品質を過小評価しており、ノイズや誤った情報を学生モデルに転送することができる。 textbfModel-textbfOriented textbfRationale textbfSelection textbfDistillation (MoRSD)を提案する。
論文参考訳（メタデータ） (2025-09-28T02:09:07Z)
Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。 CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文参考訳（メタデータ） (2025-09-06T05:33:17Z)
Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning [10.186434946738201]
大規模言語モデル(LLM)は、アルゴリズムコーディングや数学的問題解決といったタスクにおいて顕著な推論能力を示す。近年の手法では,強化学習と教師付き微調整を組み合わせた多段階学習による推論が改良されている。
論文参考訳（メタデータ） (2025-08-13T15:32:25Z)
Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文参考訳（メタデータ） (2025-07-14T07:41:35Z)
Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文参考訳（メタデータ） (2025-06-10T12:40:39Z)
Enhancing Long-Chain Reasoning Distillation through Error-Aware Self-Reflection [64.73809794561305]
errOr-aware self-ReflectION (ORION) は、エラー・アウェア・リフレクション(Error-Aware Reflection)プロセスを通じて教師のCoTを洗練するフレームワークである。複数の数学的推論ベンチマークの実験では、ORIONはすべてのベースラインに対して2%以上パフォーマンスを継続的に改善している。
論文参考訳（メタデータ） (2025-05-28T08:57:03Z)
Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning [63.888013006686364]
教師による微調整(SFT)による教師から生徒への推論経路の蒸留は、大規模言語モデル(LLM)の推論能力を向上させるショートカットを提供する。 GSRM(Generative Structure Reward Model)による強化学習に基づく蒸留フレームワークRLKDを提案する。 GSRMは、推論パスを複数のメタ推論解決ステップに変換し、報酬を計算して、学生と教師の推論の構造的アライメントを測定する。
論文参考訳（メタデータ） (2025-05-22T02:36:36Z)
Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones? [58.80794196076336]
大型言語モデル(LLM)の蒸留は、教師による微調整(SFT)を通して教師モデルの応答を伝達するのが一般的である。本稿では, 応答と報酬の両方を伝達する新しい蒸留パイプラインを提案する。本手法は,教師と生徒の両方の反応の固有構造を利用した自己教師機構によって擬似回帰を生成する。
論文参考訳（メタデータ） (2025-02-26T20:50:11Z)
Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文参考訳（メタデータ） (2024-10-21T17:00:06Z)
Learning from Committee: Reasoning Distillation from a Mixture of Teachers with Peer-Review [11.756344944226495]
ピアリビュー(FAIR)による新しいフォールト・アウェア蒸留法を提案する。本手法では, 教師から金の合理性を得る代わりに, 生徒の過ちを特定・説明するよう教師に求めている。
論文参考訳（メタデータ） (2024-10-04T17:59:41Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks [6.51301154858045]
大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。
論文参考訳（メタデータ） (2023-11-09T01:04:44Z)
Symbolic Chain-of-Thought Distillation: Small Models Can Also "Think" Step-by-Step [133.60124577507727]
思考の連鎖は、素数大言語モデルに彼らの予測の合理化を口頭で示すよう促す。オーダーオブマグニチュードの小さなモデルでも、チェーンオブ思想のプロンプトの恩恵を受けられることを示す。そこで我々は,より大規模な教師モデルから抽出した合理化に基づいて,より小さな学生モデルを訓練する方法であるChain-of-Thought Distillation (SCoTD)を紹介した。
論文参考訳（メタデータ） (2023-06-24T20:15:07Z)
ZARA: Improving Few-Shot Self-Rationalization for Small Language Models [29.755148112827502]
本稿では,自己学習のための擬似並列データを自動的に構築するためのZARA(Zero-shot Augmentation of Rationale-Answer pairs)を提案する。 ZARAは、タスク精度と説明基準の両方において、FEBベンチマーク上でSOTA性能を達成する。
論文参考訳（メタデータ） (2023-05-12T10:07:12Z)
Chaos is a Ladder: A New Theoretical Understanding of Contrastive Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文参考訳（メタデータ） (2022-03-25T05:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。