論文の概要: Deep Model Compression Also Helps Models Capture Ambiguity
- arxiv url: http://arxiv.org/abs/2306.07061v1
- Date: Mon, 12 Jun 2023 12:24:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:50:39.733917
- Title: Deep Model Compression Also Helps Models Capture Ambiguity
- Title(参考訳): 深層モデル圧縮は、モデルのあいまいさを捉えるのに役立つ
- Authors: Hancheol Park, Jong C. Park
- Abstract要約: 自然言語理解(NLU)タスクは、非自明な量のあいまいなサンプルに直面する。
NLUモデルはそのような曖昧さを考慮に入れなければならないが、人間の意見分布をかなりよく理解していない。
深層モデル圧縮を用いた新しい手法を提案し,そのような関係をいかに説明できるかを示す。
- 参考スコア(独自算出の注目度): 0.34265828682659694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language understanding (NLU) tasks face a non-trivial amount of
ambiguous samples where veracity of their labels is debatable among annotators.
NLU models should thus account for such ambiguity, but they approximate the
human opinion distributions quite poorly and tend to produce over-confident
predictions. To address this problem, we must consider how to exactly capture
the degree of relationship between each sample and its candidate classes. In
this work, we propose a novel method with deep model compression and show how
such relationship can be accounted for. We see that more reasonably represented
relationships can be discovered in the lower layers and that validation
accuracies are converging at these layers, which naturally leads to layer
pruning. We also see that distilling the relationship knowledge from a lower
layer helps models produce better distribution. Experimental results
demonstrate that our method makes substantial improvement on quantifying
ambiguity without gold distribution labels. As positive side-effects, our
method is found to reduce the model size significantly and improve latency,
both attractive aspects of NLU products.
- Abstract(参考訳): 自然言語理解(NLU)タスクは、アノテータ間でラベルの妥当性が議論されるような、不明瞭な量のサンプルに直面する。
したがって、NLUモデルはそのような曖昧さを考慮に入れなければならないが、人間の意見分布は極めて低く、自信過剰な予測をもたらす傾向がある。
この問題に対処するために、各サンプルとその候補クラスとの関係を正確に把握する方法を検討する必要がある。
本研究では,深層モデル圧縮を用いた新しい手法を提案し,そのような関係をいかに説明できるかを示す。
より合理的に表現された関係が下位層で見つけられ、検証の精度がこれらの層に収束していることが自然に層を刈り取ることに繋がる。
また、下層から関係知識を蒸留することで、モデルがより良い分布を生み出すことが期待できる。
実験結果から,金分布ラベルを使わずにあいまいさの定量化に大幅な改善が得られた。
正の副作用として,本手法はモデルサイズを大幅に削減し,NLU製品の魅力的な側面である遅延を改善する。
関連論文リスト
- Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Can we Agree? On the Rash\=omon Effect and the Reliability of Post-Hoc
Explainable AI [0.0]
Rash=omon効果は、マシンラーニングモデルから信頼できる知識を引き出す上での課題となる。
本研究では,サンプルサイズがSHAPを用いたRash=omon集合のモデルからの説明に与える影響について検討した。
論文 参考訳(メタデータ) (2023-08-14T16:32:24Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Saliency Grafting: Innocuous Attribution-Guided Mixup with Calibrated
Label Mixing [104.630875328668]
ミックスアップスキームは、強化されたトレーニングサンプルを作成するために、サンプルのペアを混ぜることを提案する。
両世界のベストを捉えた、斬新だがシンプルなミックスアップ版を提示する。
論文 参考訳(メタデータ) (2021-12-16T11:27:48Z) - Exploiting Transductive Property of Graph Convolutional Neural Networks
with Less Labeling Effort [0.0]
GCNモデルの開発は、グラフデータに適用された畳み込みフィルタに対して大きな実験的貢献をしている。
トランスダクティブな性質のため、部分的にラベル付けされたすべてのデータサンプルがモデルへの入力として与えられる。
論文 参考訳(メタデータ) (2021-05-01T05:33:31Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。