論文の概要: Explanation-based Finetuning Makes Models More Robust to Spurious Cues
- arxiv url: http://arxiv.org/abs/2305.04990v3
- Date: Tue, 6 Jun 2023 15:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:57:21.449033
- Title: Explanation-based Finetuning Makes Models More Robust to Spurious Cues
- Title(参考訳): 説明に基づく微調整でモデルがより堅牢になる
- Authors: Josh Magnus Ludan, Yixuan Meng, Tai Nguyen, Saurabh Shah, Qing Lyu,
Marianna Apidianaki, Chris Callison-Burch
- Abstract要約: 大きな言語モデル(LLM)は非常に強力で、ラベルとタスクとは無関係な機能の間に相関関係を学習することがある。
本稿では,LLMの素早い相関性への依存を軽減するための一般的なアプローチとして,説明ベースファインタニングを提案する。
我々は、その解答をサポートする自由テキスト説明を新たに生成するように、モデルを微調整する。
- 参考スコア(独自算出の注目度): 21.327036110196637
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are so powerful that they sometimes learn
correlations between labels and features that are irrelevant to the task,
leading to poor generalization on out-of-distribution data. We propose
explanation-based finetuning as a general approach to mitigate LLMs' reliance
on spurious correlations. Unlike standard finetuning where the model only
predicts the answer given the input, we finetune the model to additionally
generate a free-text explanation supporting its answer. To evaluate our method,
we finetune the model on artificially constructed training sets containing
different types of spurious cues, and test it on a test set without these cues.
Compared to standard finetuning, our method makes GPT-3 (davinci) remarkably
more robust against spurious cues in terms of accuracy drop across four
classification tasks: ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), and SBIC
(+6.5). The efficacy generalizes across multiple model families and scales,
with greater gains for larger models. Finally, our method also works well with
explanations generated by the model, implying its applicability to more
datasets without human-written explanations.
- Abstract(参考訳): 大規模言語モデル(llm)は非常に強力であり、時としてそのタスクとは無関係なラベルと特徴の間の相関を学習し、分散データの一般化が不十分になる。
llmsのスプリアス相関への依存を緩和するための一般的なアプローチとして,説明に基づく微調整を提案する。
モデルが入力に対してのみ応答を予測する標準的な微調整とは異なり、我々はモデルにその応答をサポートする自由文説明を付加するように微調整する。
提案手法を評価するため, 異なる種類の刺激的手がかりを含む人工的に構築したトレーニングセット上でモデルを微調整し, テストセット上でテストする。
標準的な微調整と比較して,本手法は, ComVE (+1.2), CREAK (+9.1), e-SNLI (+15.4), SBIC (+6.5) の4つの分類課題において, GPT-3 (davinci) の精度低下を著しく抑制する。
有効性は、複数のモデルファミリーとスケールにまたがって一般化し、より大きなモデルに対してより大きな利益をもたらす。
最後に,本手法はモデルが生成する説明にもうまく対応し,人間が記述した説明を使わずにより多くのデータセットに適用できることを示す。
関連論文リスト
- Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Model Editing with Canonical Examples [75.33218320106585]
標準例を用いたモデル編集について紹介する。
例えば、モーリシャスの首都はポートルイである。
本稿では,各標準例に対して数個の感覚ベクトルを選択し,微調整するセンスファインタニングを提案する。
論文 参考訳(メタデータ) (2024-02-09T03:08:12Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Text Alignment Is An Efficient Unified Model for Massive NLP Tasks [24.069447197357164]
次単語予測は、多くのNLPタスクの効率的な定式化ではないことが多い。
テキストアライメントは、幅広い重要なタスクに対して効率的な統一モデルとして提案する。
私たちのモデルは、より小さなモデルサイズで同等か、あるいはさらに優れたパフォーマンスを提供します。
論文 参考訳(メタデータ) (2023-07-06T02:28:31Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Evaluating the Impact of Model Scale for Compositional Generalization in
Semantic Parsing [38.770055054268965]
最近の研究により、モデルスケーリングによる多くのNLPタスクが大幅に改善されている。
ファインチューニングは通常、分布外合成の一般化に対して平坦または負のスケーリング曲線を持つ。
文脈内学習は、正のスケーリング曲線を持つが、一般的には、より小さな微調整モデルよりも優れている。
論文 参考訳(メタデータ) (2022-05-24T17:57:39Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Turning Tables: Generating Examples from Semi-structured Tables for
Endowing Language Models with Reasoning Skills [32.55545292360155]
本稿では,半構造化テーブルを活用し,大規模質問とパラグラフのペアを自動的に生成する手法を提案する。
16種類の推論スキルを必要とする例を含む、この合成データに対する事前学習のステップを追加します。
我々のモデルであるPReasMは、トレーニング済みエンコーダ-デコーダモデルであるT5を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-15T11:37:14Z) - Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension [27.538957000237176]
人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
論文 参考訳(メタデータ) (2020-02-02T00:22:55Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。