論文の概要: Model Compression for Domain Adaptation through Causal Effect Estimation
- arxiv url: http://arxiv.org/abs/2101.07086v1
- Date: Mon, 18 Jan 2021 14:18:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 11:42:07.495105
- Title: Model Compression for Domain Adaptation through Causal Effect Estimation
- Title(参考訳): 因果効果推定による領域適応のためのモデル圧縮
- Authors: Guy Rotman, Amir Feder and Roi Reichart
- Abstract要約: ATE誘導モデル圧縮スキーム(AMoC)は、除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。
次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。
AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3%以上多い。
- 参考スコア(独自算出の注目度): 20.842938440720303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent improvements in the predictive quality of natural language processing
systems are often dependent on a substantial increase in the number of model
parameters. This has led to various attempts of compressing such models, but
existing methods have not considered the differences in the predictive power of
various model components or in the generalizability of the compressed models.
To understand the connection between model compression and out-of-distribution
generalization, we define the task of compressing language representation
models such that they perform best in a domain adaptation setting. We choose to
address this problem from a causal perspective, attempting to estimate the
\textit{average treatment effect} (ATE) of a model component, such as a single
layer, on the model's predictions. Our proposed ATE-guided Model Compression
scheme (AMoC), generates many model candidates, differing by the model
components that were removed. Then, we select the best candidate through a
stepwise regression model that utilizes the ATE to predict the expected
performance on the target domain. AMoC outperforms strong baselines on 46 of 60
domain pairs across two text classification tasks, with an average improvement
of more than 3\% in F1 above the strongest baseline.
- Abstract(参考訳): 自然言語処理システムの予測品質の最近の改善は、しばしばモデルパラメータの大幅な増加に依存している。
これは、これらのモデルを圧縮する様々な試みにつながったが、既存の手法では、様々なモデルコンポーネントの予測能力や圧縮モデルの一般化可能性の違いは考慮されていない。
モデル圧縮とアウト・オブ・ディストリビューション一般化の関連性を理解するため,ドメイン適応設定において最良となるように言語表現モデルを圧縮するタスクを定義する。
我々は、モデルの予測に基づいて、単一層のようなモデルコンポーネントの \textit{average treatment effect} (ATE) を推定しようと、因果的な観点からこの問題に対処することを選択した。
提案したATE誘導モデル圧縮スキーム(AMoC)は,除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。
次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。
AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3倍以上多い。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - Continuous Language Model Interpolation for Dynamic and Controllable Text Generation [7.535219325248997]
私たちは、モデルが多様な、そしてしばしば変化する、ユーザの好みに動的に適応しなければならない、困難なケースに注目します。
線形重みに基づく適応手法を活用し、連続的なマルチドメイン補間子としてキャストする。
重みの変化がモデル出力の予測可能かつ一貫した変化をもたらすことを示す。
論文 参考訳(メタデータ) (2024-04-10T15:55:07Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Model Compression for Dynamic Forecast Combination [9.281199058905017]
動的予測アンサンブルを個々のモデルに圧縮すると、同様の予測性能が得られることを示す。
また,平均ランクが最も高い圧縮個々モデルは規則に基づく回帰モデルであることを示した。
論文 参考訳(メタデータ) (2021-04-05T09:55:35Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Semi-nonparametric Latent Class Choice Model with a Flexible Class
Membership Component: A Mixture Model Approach [6.509758931804479]
提案したモデルは、従来のランダムユーティリティ仕様に代わるアプローチとして混合モデルを用いて潜在クラスを定式化する。
その結果,混合モデルにより潜在クラス選択モデル全体の性能が向上した。
論文 参考訳(メタデータ) (2020-07-06T13:19:26Z) - Pattern Similarity-based Machine Learning Methods for Mid-term Load
Forecasting: A Comparative Study [0.0]
パターン類似性に基づく年次電力需要予測手法について検討した。
モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。
近接モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを考える。
論文 参考訳(メタデータ) (2020-03-03T12:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。