Fugu-MT 論文翻訳(概要): KNIFE: Knowledge Distillation with Free-Text Rationales

論文の概要: KNIFE: Knowledge Distillation with Free-Text Rationales

arxiv url: http://arxiv.org/abs/2212.09721v1
Date: Mon, 19 Dec 2022 18:49:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:24:34.495738
Title: KNIFE: Knowledge Distillation with Free-Text Rationales
Title（参考訳）: KNIFE: 言論の自由による知識蒸留
Authors: Aaron Chan, Zhiyuan Zeng, Wyatt Lake, Brihi Joshi, Hanjie Chen, Xiang Ren
Abstract要約: 自由文理性(FTR)は、自然言語を通して推論過程を説明することによって人間がコミュニケーションする方法に従う。本研究では,FTRを付加した教師LMから学生LMにFTRの知識を蒸留するKNIFEを提案する。 2つの質問応答データセットにおいて、KNIFEが既存のFTR学習方法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 31.28256104334867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Free-text rationales (FTRs) follow how humans communicate by explaining reasoning processes via natural language. A number of recent works have studied how to improve language model (LM) generalization by using FTRs to teach LMs the correct reasoning processes behind correct task outputs. These prior works aim to learn from FTRs by appending them to the LM input or target output, but this may introduce an input distribution shift or conflict with the task objective, respectively. We propose KNIFE, which distills FTR knowledge from an FTR-augmented teacher LM (takes both task input and FTR) to a student LM (takes only task input), which is used for inference. Crucially, the teacher LM's forward computation has a bottleneck stage in which all of its FTR states are masked out, which pushes knowledge from the FTR states into the task input/output states. Then, FTR knowledge is distilled to the student LM by training its task input/output states to align with the teacher LM's. On two question answering datasets, we show that KNIFE significantly outperforms existing FTR learning methods, in both fully-supervised and low-resource settings.
Abstract（参考訳）: free-text rationales(ftr)は、自然言語による推論プロセスを説明することによって、人間のコミュニケーションの仕方に従う。最近の多くの研究は、FTRを用いて、正しいタスク出力の裏にある正しい推論プロセスを教えることで、言語モデル(LM)の一般化を改善する方法について研究している。これらの先行研究は、これらをLM入力またはターゲット出力に付加することでFTRから学習することを目的としているが、これはそれぞれ、入力分布シフトやタスク目標との競合を導入する可能性がある。本研究では,FTRを付加した教師LM(タスク入力とFTRの両方を取り込む)から学生LM(タスク入力のみを取り込む)にFTRの知識を蒸留するKNIFEを提案する。重要なことに、教師LMのフォワード計算は、すべてのFTR状態がマスクアウトされるボトルネックステージを持ち、FTR状態からタスク入力/出力状態に知識をプッシュする。そして、その課題入出力状態を訓練してFTR知識を学生LMに蒸留し、教師LMと整合させる。 2つの質問応答データセットにおいて,完全教師付きと低リソースの両方において,ナイフが既存のftr学習方法を大きく上回ることを示した。

関連論文リスト

Navigating the Helpfulness-Truthfulness Trade-Off with Uncertainty-Aware Instruction Fine-Tuning [79.48839334040197]
インストラクションファインチューニング(IFT)は大規模言語モデル(LLM)の有用性を高める IFT は LLM に対して、事前訓練中に十分にカバーされていない長い尾の知識で応答を生成し、不明瞭なタスクに一般化する際には、より情報に富むが、より真実に乏しい回答をもたらす。我々はこのトレードオフに対処するための新しいIFTパラダイムである$textbfUNIT$を提案する。
論文参考訳（メタデータ） (2025-02-17T16:10:30Z)
On Teacher Hacking in Language Model Distillation [61.19867259475047]
我々は,教師のハッキングと呼ばれる同様の現象が,知識蒸留中に起こりうるかどうかを考察する。これは、教師LMがそれ自体が真の分布の完全な近似であるからである。オンラインデータ生成技術は、教師のハッキングを効果的に軽減する。
論文参考訳（メタデータ） (2025-02-04T19:26:28Z)
Instruction Tuning With Loss Over Instructions [42.9106826952674]
インストラクション・モデリング(IM)は、出力部のみではなく、インストラクションとプロンプト部に損失関数を適用してLMを訓練する。多くのシナリオにおいて、IMはNLPタスクとオープン・エンド・ジェネレーション・ベンチマークの両方でのLM性能を効果的に改善できることを示す。注目すべきは、最も有利な場合、IMはAlpacaEval 1.0のモデルパフォーマンスを100%以上向上させることだ。
論文参考訳（メタデータ） (2024-05-23T10:12:03Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Democratizing Reasoning Ability: Tailored Learning from Large Language Model [97.4921006089966]
そこで我々は,そのような推論能力をより小さなLMに蒸留する,適切な学習手法を提案する。対話型多ラウンド学習パラダイムを構築することにより,理科教員としてのLLMの可能性を活用する。より小さなLMの推論可能性を活用するために,学生が自作ミスから学習する動機付けを目的とした自己回帰学習を提案する。
論文参考訳（メタデータ） (2023-10-20T07:50:10Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文参考訳（メタデータ） (2023-05-03T03:47:00Z)
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。 LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文参考訳（メタデータ） (2022-12-20T18:30:15Z)
PINTO: Faithful Language Reasoning Using Prompt-Generated Rationales [42.98229290301891]
PINTOは、素早い学習を通じて合理化し、反実正則化を通じて合理性を忠実に理化することを学ぶパイプラインである。 PINTO は LM の推理能力を大幅に向上させ, 分布内および分布外の両方で高い性能が得られることを示した。
論文参考訳（メタデータ） (2022-11-03T02:55:54Z)
RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文参考訳（メタデータ） (2021-09-24T16:19:25Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。