論文の概要: KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2212.09721v2
- Date: Mon, 22 May 2023 00:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 04:49:20.910212
- Title: KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales
- Title(参考訳): KNIFE: フリーテキストの論理から知識を抽出する
- Authors: Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang
Ren
- Abstract要約: 提案するKNIFEは,FTRから小さい (1B) LMに推論知識を効果的に蒸留できることを示す。
KNIFEは、教師LM(タスク入力とFTR)を微調整してタスク出力を予測し、FTRから教師の隠れた状態への推論知識を伝達する。
第二に、KNIFEは学生LM(タスク入力のみ)を微調整し、その隠れた状態が教師のものと一致するようにする。
- 参考スコア(独自算出の注目度): 31.28256104334867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) have yielded impressive results on many language
reasoning tasks, but their unexpected errors raise doubts about their reasoning
abilities. In light of this, there is growing interest in finetuning/prompting
LMs with both task instances and their associated free-text rationales (FTRs),
which explain the correct reasoning process for predicting the correct task
output (i.e., how to be "right for the right reasons"). However, existing
finetuning methods fail to improve LM performance, while prompting needs
prohibitively large (i.e., >50B) LMs to work well. We propose KNIFE, which
shows that reasoning knowledge can be effectively distilled from FTRs into a
small (i.e., <1B) LM and improve the LM's performance. First, KNIFE finetunes a
teacher LM (given task input and FTR) to predict the task output, transferring
reasoning knowledge from the FTRs to the teacher's hidden states. Second, KNIFE
finetunes a student LM (given task input only) such that its hidden states are
aligned with the teacher's. Thus, the student is endowed with reasoning
knowledge but can be used for inference without direct FTR input. On two
question-answering datasets, KNIFE outperforms various finetuning and prompting
baselines in fully-supervised and low-resource settings. Also, we observe that
FTR quality is crucial to KNIFE's performance.
- Abstract(参考訳): 言語モデル(lms)は多くの言語推論タスクで印象的な結果をもたらしたが、予期せぬエラーは推論能力に疑問を投げかけている。
これを踏まえて、タスクインスタンスとそれに関連する自由文論理(FTR)の両方でLMを微調整/プロンプトすることへの関心が高まっており、正しいタスク出力を予測する正しい推論プロセス(すなわち、正しい理由のために「正しい」方法)を説明する。
しかし、既存の微調整法はLM性能を向上するのに失敗し、また、非常に大きな (50B) の LM を正常に動作させる必要がある。
KNIFEは,FTRから小さい (すなわち<1B) LMに推論知識を効果的に蒸留し,LMの性能を向上させることができることを示す。
まず、KNIFEは教師LM(タスク入力とFTR)を微調整してタスク出力を予測し、FTRから教師の隠れた状態への推論知識を伝達する。
第二に、KNIFEは学生LM(タスク入力のみ)を微調整し、その隠れ状態が教師のものと一致するようにする。
したがって、学生には推論知識が与えられるが、直接FTR入力なしで推論に使用できる。
2つの問合せデータセットでは、KNIFEはさまざまな微調整を上回り、完全な教師付きおよび低リソース設定でベースラインを誘導する。
また,FTRの品質がKNIFEの性能に重要であることも確認した。
関連論文リスト
- A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Democratizing Reasoning Ability: Tailored Learning from Large Language
Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。
対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。
より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文 参考訳(メタデータ) (2023-10-20T07:50:10Z) - Deduction under Perturbed Evidence: Probing Student Simulation
Capabilities of Large Language Models [27.943334687742244]
我々は、最も先進的なGPTモデルでさえ、操作された事実を推論するのに苦労していることを示す。
実世界のアプリケーションにおけるLLMの性能を理解するために,本研究は実践的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-23T20:26:03Z) - LeTI: Learning to Generate from Textual Interactions [59.79240825328176]
本稿では,テキストインタラクション(LeTI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックによって出力中のエラーをピンポイントし,説明する。
本研究は,自然言語命令に応答してコード片を生成するコード生成タスクに焦点をあてる。
LeTIは、LMの目的を用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいてモデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales [42.98229290301891]
PINTOは、素早い学習を通じて合理化し、反実正則化を通じて合理性を忠実に理化することを学ぶパイプラインである。
PINTO は LM の推理能力を大幅に向上させ, 分布内および分布外の両方で高い性能が得られることを示した。
論文 参考訳(メタデータ) (2022-11-03T02:55:54Z) - An Interpretability Evaluation Benchmark for Pre-trained Language Models [37.16893581395874]
英語と中国語の両方の注釈付きデータを提供する新しい評価ベンチマークを提案する。
複数の次元(文法、意味論、知識、推論、計算など)でLMの能力をテストする。
各元のインスタンスに対する摂動インスタンスを含み、摂動の下での有理整合を忠実性の計量として使う。
論文 参考訳(メタデータ) (2022-07-28T08:28:09Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。