論文の概要: KNIFE: Knowledge Distillation with Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2212.09721v1
- Date: Mon, 19 Dec 2022 18:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:24:34.495738
- Title: KNIFE: Knowledge Distillation with Free-Text Rationales
- Title(参考訳): KNIFE: 言論の自由による知識蒸留
- Authors: Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang
Ren
- Abstract要約: 自由文理性(FTR)は、自然言語を通して推論過程を説明することによって人間がコミュニケーションする方法に従う。
本研究では,FTRを付加した教師LMから学生LMにFTRの知識を蒸留するKNIFEを提案する。
2つの質問応答データセットにおいて、KNIFEが既存のFTR学習方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 31.28256104334867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales (FTRs) follow how humans communicate by explaining
reasoning processes via natural language. A number of recent works have studied
how to improve language model (LM) generalization by using FTRs to teach LMs
the correct reasoning processes behind correct task outputs. These prior works
aim to learn from FTRs by appending them to the LM input or target output, but
this may introduce an input distribution shift or conflict with the task
objective, respectively. We propose KNIFE, which distills FTR knowledge from an
FTR-augmented teacher LM (takes both task input and FTR) to a student LM (takes
only task input), which is used for inference. Crucially, the teacher LM's
forward computation has a bottleneck stage in which all of its FTR states are
masked out, which pushes knowledge from the FTR states into the task
input/output states. Then, FTR knowledge is distilled to the student LM by
training its task input/output states to align with the teacher LM's. On two
question answering datasets, we show that KNIFE significantly outperforms
existing FTR learning methods, in both fully-supervised and low-resource
settings.
- Abstract(参考訳): free-text rationales(ftr)は、自然言語による推論プロセスを説明することによって、人間のコミュニケーションの仕方に従う。
最近の多くの研究は、FTRを用いて、正しいタスク出力の裏にある正しい推論プロセスを教えることで、言語モデル(LM)の一般化を改善する方法について研究している。
これらの先行研究は、これらをLM入力またはターゲット出力に付加することでFTRから学習することを目的としているが、これはそれぞれ、入力分布シフトやタスク目標との競合を導入する可能性がある。
本研究では,FTRを付加した教師LM(タスク入力とFTRの両方を取り込む)から学生LM(タスク入力のみを取り込む)にFTRの知識を蒸留するKNIFEを提案する。
重要なことに、教師LMのフォワード計算は、すべてのFTR状態がマスクアウトされるボトルネックステージを持ち、FTR状態からタスク入力/出力状態に知識をプッシュする。
そして、その課題入出力状態を訓練してFTR知識を学生LMに蒸留し、教師LMと整合させる。
2つの質問応答データセットにおいて,完全教師付きと低リソースの両方において,ナイフが既存のftr学習方法を大きく上回ることを示した。
関連論文リスト
- Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。
多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。
注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文 参考訳(メタデータ) (2024-05-23T10:12:03Z) - Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。
1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文 参考訳(メタデータ) (2024-04-04T12:46:37Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales [42.98229290301891]
PINTOは、素早い学習を通じて合理化し、反実正則化を通じて合理性を忠実に理化することを学ぶパイプラインである。
PINTO は LM の推理能力を大幅に向上させ, 分布内および分布外の両方で高い性能が得られることを示した。
論文 参考訳(メタデータ) (2022-11-03T02:55:54Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。