論文の概要: KNIFE: Knowledge Distillation with Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2212.09721v1
- Date: Mon, 19 Dec 2022 18:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:24:34.495738
- Title: KNIFE: Knowledge Distillation with Free-Text Rationales
- Title(参考訳): KNIFE: 言論の自由による知識蒸留
- Authors: Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang
Ren
- Abstract要約: 自由文理性(FTR)は、自然言語を通して推論過程を説明することによって人間がコミュニケーションする方法に従う。
本研究では,FTRを付加した教師LMから学生LMにFTRの知識を蒸留するKNIFEを提案する。
2つの質問応答データセットにおいて、KNIFEが既存のFTR学習方法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 31.28256104334867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales (FTRs) follow how humans communicate by explaining
reasoning processes via natural language. A number of recent works have studied
how to improve language model (LM) generalization by using FTRs to teach LMs
the correct reasoning processes behind correct task outputs. These prior works
aim to learn from FTRs by appending them to the LM input or target output, but
this may introduce an input distribution shift or conflict with the task
objective, respectively. We propose KNIFE, which distills FTR knowledge from an
FTR-augmented teacher LM (takes both task input and FTR) to a student LM (takes
only task input), which is used for inference. Crucially, the teacher LM's
forward computation has a bottleneck stage in which all of its FTR states are
masked out, which pushes knowledge from the FTR states into the task
input/output states. Then, FTR knowledge is distilled to the student LM by
training its task input/output states to align with the teacher LM's. On two
question answering datasets, we show that KNIFE significantly outperforms
existing FTR learning methods, in both fully-supervised and low-resource
settings.
- Abstract(参考訳): free-text rationales(ftr)は、自然言語による推論プロセスを説明することによって、人間のコミュニケーションの仕方に従う。
最近の多くの研究は、FTRを用いて、正しいタスク出力の裏にある正しい推論プロセスを教えることで、言語モデル(LM)の一般化を改善する方法について研究している。
これらの先行研究は、これらをLM入力またはターゲット出力に付加することでFTRから学習することを目的としているが、これはそれぞれ、入力分布シフトやタスク目標との競合を導入する可能性がある。
本研究では,FTRを付加した教師LM(タスク入力とFTRの両方を取り込む)から学生LM(タスク入力のみを取り込む)にFTRの知識を蒸留するKNIFEを提案する。
重要なことに、教師LMのフォワード計算は、すべてのFTR状態がマスクアウトされるボトルネックステージを持ち、FTR状態からタスク入力/出力状態に知識をプッシュする。
そして、その課題入出力状態を訓練してFTR知識を学生LMに蒸留し、教師LMと整合させる。
2つの質問応答データセットにおいて,完全教師付きと低リソースの両方において,ナイフが既存のftr学習方法を大きく上回ることを示した。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - LeTI: Learning to Generate from Textual Interactions [59.79240825328176]
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales [42.98229290301891]
PINTOは、素早い学習を通じて合理化し、反実正則化を通じて合理性を忠実に理化することを学ぶパイプラインである。
PINTO は LM の推理能力を大幅に向上させ, 分布内および分布外の両方で高い性能が得られることを示した。
論文 参考訳(メタデータ) (2022-11-03T02:55:54Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。