論文の概要: DISCO: Distilling Counterfactuals with Large Language Models
- arxiv url: http://arxiv.org/abs/2212.10534v3
- Date: Mon, 5 Jun 2023 19:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 21:15:46.207223
- Title: DISCO: Distilling Counterfactuals with Large Language Models
- Title(参考訳): DISCO: 大規模言語モデルによる対物蒸留
- Authors: Zeming Chen and Qiyue Gao and Antoine Bosselut and Ashish Sabharwal
and Kyle Richardson
- Abstract要約: 対実的に強化されたデータで訓練されたモデルは、タスクの因果構造の表現を学習する。
高品質のカウンターファクトデータはほとんどのタスクに乏しく、大規模に生成するのは容易ではない。
DISCOは,大規模に高品質な対実データを自動的に生成する新しい手法である。
- 参考スコア(独自算出の注目度): 39.86500142612947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Models trained with counterfactually augmented data learn representations of
the causal structure of tasks, enabling robust generalization. However,
high-quality counterfactual data is scarce for most tasks and not easily
generated at scale. When crowdsourced, such data is typically limited in scale
and diversity; when generated using supervised methods, it is computationally
expensive to extend to new counterfactual dimensions. In this work, we
introduce DISCO (DIStilled COunterfactual Data), a new method for automatically
generating high quality counterfactual data at scale. DISCO engineers prompts
to generate phrasal perturbations with a large general language model. Then, a
task-specific teacher model filters these generations to distill high-quality
counterfactual data. While task-agnostic, we apply our pipeline to the task of
natural language inference (NLI) and find that on challenging evaluations such
as the NLI stress test, comparatively smaller student models trained with DISCO
generated counterfactuals are more robust (6% absolute) and generalize better
across distributions (2%) compared to models trained without data augmentation.
Furthermore, DISCO augmented models are 10% more consistent between
counterfactual pairs on three evaluation sets, demonstrating that DISCO
augmentation enables models to more reliably learn causal representations. Our
repository is available at: https://github.com/eric11eca/disco
- Abstract(参考訳): 反証的に拡張されたデータでトレーニングされたモデルは、タスクの因果構造の表現を学習し、堅牢な一般化を可能にする。
しかし、高品質な偽データはほとんどのタスクで不足しており、大規模に生成するのは容易ではない。
クラウドソースされた場合、そのようなデータは一般的に規模や多様性に制限されるが、教師付き手法で生成された場合、新しいカウンターファクト次元に拡張する計算コストがかかる。
そこで本研究では,高品質な偽データの自動生成手法であるdisco (distilled counterfactual data) を提案する。
DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。
そして、タスク固有の教師モデルがこれらの世代をフィルタリングし、高品質なカウンターファクトデータを蒸留する。
タスク非依存では、パイプラインを自然言語推論(NLI)タスクに適用し、NLIストレステスト(NLI stress test)のような挑戦的な評価において、disCO生成した偽物によりトレーニングされた比較的小さな学生モデルの方がより堅牢(6%絶対)であり、データ強化なしでトレーニングされたモデルと比較して分散(2%)を一般化する。
さらに、ディスコ拡張モデルは、3つの評価セットで反事実ペア間で10%一貫性があり、ディスコ拡張によりモデルがより確実に因果表現を学習できることを示している。
私たちのリポジトリは、https://github.com/eric11eca/discoで利用可能です。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Continual learning with task specialist [2.8830182365988923]
破滅的な忘れと限定されたラベル付きデータの問題に対処するために,タスクスペシャリストによる連続学習(CLTS)を提案する。
モデルはタスクスペシャリスト(T S)とタスク予測器(T P)と、事前訓練された安定拡散(SD)モジュールで構成される。
3つの実世界のデータセットで行った4つのSOTAモデルとの比較研究により、提案モデルが選択されたベースラインすべてより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-26T12:59:09Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - CILIATE: Towards Fairer Class-based Incremental Learning by Dataset and
Training Refinement [20.591583747291892]
我々は、CILがデータセットとアルゴリズムのバイアスの両方に悩まされていることを示す。
本稿では,CILにおけるデータセットとアルゴリズムバイアスを両立させる新しいフレームワークCILIATEを提案する。
CILIATEは最先端の手法と比較してCILの公正性を17.03%、22.46%、31.79%改善している。
論文 参考訳(メタデータ) (2023-04-09T12:10:39Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。