Fugu-MT 論文翻訳(概要): KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales

論文の概要: KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales

arxiv url: http://arxiv.org/abs/2212.09721v2
Date: Mon, 22 May 2023 00:19:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 04:49:20.910212
Title: KNIFE: Distilling Reasoning Knowledge From Free-Text Rationales
Title（参考訳）: KNIFE: フリーテキストの論理から知識を抽出する
Authors: Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang Ren
Abstract要約: 提案するKNIFEは,FTRから小さい (1B) LMに推論知識を効果的に蒸留できることを示す。 KNIFEは、教師LM(タスク入力とFTR)を微調整してタスク出力を予測し、FTRから教師の隠れた状態への推論知識を伝達する。第二に、KNIFEは学生LM(タスク入力のみ)を微調整し、その隠れた状態が教師のものと一致するようにする。
参考スコア（独自算出の注目度）: 31.28256104334867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Language models (LMs) have yielded impressive results on many language reasoning tasks, but their unexpected errors raise doubts about their reasoning abilities. In light of this, there is growing interest in finetuning/prompting LMs with both task instances and their associated free-text rationales (FTRs), which explain the correct reasoning process for predicting the correct task output (i.e., how to be "right for the right reasons"). However, existing finetuning methods fail to improve LM performance, while prompting needs prohibitively large (i.e., >50B) LMs to work well. We propose KNIFE, which shows that reasoning knowledge can be effectively distilled from FTRs into a small (i.e., <1B) LM and improve the LM's performance. First, KNIFE finetunes a teacher LM (given task input and FTR) to predict the task output, transferring reasoning knowledge from the FTRs to the teacher's hidden states. Second, KNIFE finetunes a student LM (given task input only) such that its hidden states are aligned with the teacher's. Thus, the student is endowed with reasoning knowledge but can be used for inference without direct FTR input. On two question-answering datasets, KNIFE outperforms various finetuning and prompting baselines in fully-supervised and low-resource settings. Also, we observe that FTR quality is crucial to KNIFE's performance.
Abstract（参考訳）: 言語モデル(lms)は多くの言語推論タスクで印象的な結果をもたらしたが、予期せぬエラーは推論能力に疑問を投げかけている。これを踏まえて、タスクインスタンスとそれに関連する自由文論理(FTR)の両方でLMを微調整/プロンプトすることへの関心が高まっており、正しいタスク出力を予測する正しい推論プロセス(すなわち、正しい理由のために「正しい」方法)を説明する。しかし、既存の微調整法はLM性能を向上するのに失敗し、また、非常に大きな (50B) の LM を正常に動作させる必要がある。 KNIFEは,FTRから小さい (すなわち<1B) LMに推論知識を効果的に蒸留し,LMの性能を向上させることができることを示す。まず、KNIFEは教師LM(タスク入力とFTR)を微調整してタスク出力を予測し、FTRから教師の隠れた状態への推論知識を伝達する。第二に、KNIFEは学生LM(タスク入力のみ)を微調整し、その隠れ状態が教師のものと一致するようにする。したがって、学生には推論知識が与えられるが、直接FTR入力なしで推論に使用できる。 2つの問合せデータセットでは、KNIFEはさまざまな微調整を上回り、完全な教師付きおよび低リソース設定でベースラインを誘導する。また,FTRの品質がKNIFEの性能に重要であることも確認した。

関連論文リスト

Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。これは、教師LMがそれ自体が真の分布の完全な近似であるからである。オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文参考訳（メタデータ） (2025-02-04T19:26:28Z)
Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文参考訳（メタデータ） (2024-05-23T10:12:03Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文参考訳（メタデータ） (2023-05-03T03:47:00Z)
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。 LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文参考訳（メタデータ） (2022-12-20T18:30:15Z)
PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales [42.98229290301891]
PINTOは、素早い学習を通じて合理化し、反実正則化を通じて合理性を忠実に理化することを学ぶパイプラインである。 PINTO は LM の推理能力を大幅に向上させ, 分布内および分布外の両方で高い性能が得られることを示した。
論文参考訳（メタデータ） (2022-11-03T02:55:54Z)
RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文参考訳（メタデータ） (2021-09-24T16:19:25Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。