論文の概要: DISCO: Distilling Phrasal Counterfactuals with Large Language Models
- arxiv url: http://arxiv.org/abs/2212.10534v1
- Date: Tue, 20 Dec 2022 18:46:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:06:54.864744
- Title: DISCO: Distilling Phrasal Counterfactuals with Large Language Models
- Title(参考訳): DISCO: 大規模言語モデルによるファラカル・カウンティファクトの蒸留
- Authors: Zeming Chen and Qiyue Gao and Kyle Richardson and Antoine Bosselut and
Ashish Sabharwal
- Abstract要約: DISCOは、スケールで高品質なカウンターファクトデータを自動生成するフレームワークである。
この反事実データを用いて学習すると、6%(絶対)の比較的小さな学生モデルがより堅牢になることを示す。
- 参考スコア(独自算出の注目度): 39.86500142612947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent methods demonstrate that data augmentation using counterfactual
knowledge can teach models the causal structure of a task, leading to robust
and generalizable models. However, such counterfactual data often has a limited
scale and diversity if crowdsourced and is computationally expensive to extend
to new perturbation types if generated using supervised methods. To address
this, we introduce a new framework called DISCO for automatically generating
high-quality counterfactual data at scale. DISCO engineers prompts to generate
phrasal perturbations with a large general language model. Then, a
task-specific teacher model filters the generation to distill high-quality
counterfactual data. We show that learning with this counterfactual data yields
a comparatively small student model that is 6% (absolute) more robust and
generalizes 5% better across distributions than baselines on various
challenging evaluations. This model is also 15% more sensitive in
differentiating original and counterfactual examples, on three evaluation sets
written by human workers and via human-AI collaboration.
- Abstract(参考訳): 近年の手法では、反実的知識を用いたデータ拡張がタスクの因果構造をモデルに教えることが示され、堅牢で一般化可能なモデルが導かれる。
しかし,このような反事実データには,クラウドソーシングによって規模や多様性が制限されることが多く,教師付き手法で生成した場合には,新たな摂動タイプに拡張するための計算コストがかかる。
そこで本研究では,高品質な対実データを自動的に生成するdisCOという新しいフレームワークを提案する。
DISCOエンジニアは、大きな汎用言語モデルでフレーズ摂動を生成するよう促す。
そして、タスク固有の教師モデルが生成をフィルタリングし、高品質な反事実データを蒸留する。
この反事実データを用いた学習は, 6% (絶対的) な比較的小さな学習モデルとなり, 様々な難解な評価のベースラインよりも, 分布全体の5%を一般化できることを示した。
このモデルはまた、人間の作業員による3つの評価セットと人間とAIのコラボレーションを通して、原例と偽例の区別に15%敏感である。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Continual learning with task specialist [2.8830182365988923]
破滅的な忘れと限定されたラベル付きデータの問題に対処するために,タスクスペシャリストによる連続学習(CLTS)を提案する。
モデルはタスクスペシャリスト(T S)とタスク予測器(T P)と、事前訓練された安定拡散(SD)モジュールで構成される。
3つの実世界のデータセットで行った4つのSOTAモデルとの比較研究により、提案モデルが選択されたベースラインすべてより優れていることが示された。
論文 参考訳(メタデータ) (2024-09-26T12:59:09Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - CILIATE: Towards Fairer Class-based Incremental Learning by Dataset and
Training Refinement [20.591583747291892]
我々は、CILがデータセットとアルゴリズムのバイアスの両方に悩まされていることを示す。
本稿では,CILにおけるデータセットとアルゴリズムバイアスを両立させる新しいフレームワークCILIATEを提案する。
CILIATEは最先端の手法と比較してCILの公正性を17.03%、22.46%、31.79%改善している。
論文 参考訳(メタデータ) (2023-04-09T12:10:39Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Reproducible, incremental representation learning with Rosetta VAE [0.0]
変分オートエンコーダは、高次元データから低次元構造を蒸留する最も一般的な方法の一つである。
我々は、以前に学習した表現を蒸留し、新しいモデルを再現し、事前の結果に基づいて構築する手法であるRosetta VAEを紹介する。
R-VAEは、VAEや$beta$-VAEと同様にデータを再構成し、連続的なトレーニング環境でターゲット潜在空間の回復において、両方の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-01-13T20:45:35Z) - Hyperparameter-free Continuous Learning for Domain Classification in
Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である
既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。
本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。