論文の概要: Learning Interpretable Models Using Uncertainty Oracles
- arxiv url: http://arxiv.org/abs/1906.06852v6
- Date: Thu, 22 Aug 2024 22:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 20:34:38.720025
- Title: Learning Interpretable Models Using Uncertainty Oracles
- Title(参考訳): 不確実なオラクルを用いた解釈可能なモデル学習
- Authors: Abhishek Ghose, Balaraman Ravindran,
- Abstract要約: 解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
- 参考スコア(独自算出の注目度): 12.879371384378164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A desirable property of interpretable models is small size, so that they are easily understandable by humans. This leads to the following challenges: (a) small sizes typically imply diminished accuracy, and (b) bespoke levers provided by model families to restrict size, e.g., L1 regularization, might be insufficient to reach the desired size-accuracy trade-off. We address these challenges here. Earlier work has shown that learning the training distribution creates accurate small models. Our contribution is a new technique that exploits this idea. The training distribution is encoded as a Dirichlet Process to allow for a flexible number of modes that is learnable from the data. Its parameters are learned using Bayesian Optimization; a design choice that makes the technique applicable to non-differentiable loss functions. To avoid the challenges with high dimensionality, the data is first projected down to one-dimension using uncertainty scores of a separate probabilistic model, that we refer to as the uncertainty oracle. We show that this technique addresses the above challenges: (a) it arrests the reduction in accuracy that comes from shrinking a model (in some cases we observe $\sim 100\%$ improvement over baselines), and also, (b) that this maybe applied with no change across model families with different notions of size; results are shown for Decision Trees, Linear Probability models and Gradient Boosted Models. Additionally, we show that (1) it is more accurate than its predecessor, (2) requires only one hyperparameter to be set in practice, (3) accommodates a multi-variate notion of model size, e.g., both maximum depth of a tree and number of trees in Gradient Boosted Models, and (4) works across different feature spaces between the uncertainty oracle and the interpretable model, e.g., a GRU might act as an oracle for a decision tree that ingests n-grams.
- Abstract(参考訳): 解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
これは次の課題に繋がる。
a) 小型の場合、通常精度が低下し、
b) モデルファミリーがサイズを制限するため,例えば,L1正則化等のベスポークレバーは,所望の大きさ精度のトレードオフに達するには不十分である。
ここではこれらの課題に対処する。
以前の研究は、トレーニング分布の学習が正確な小さなモデルを生成することを示した。
私たちの貢献は、このアイデアを活用する新しいテクニックです。
トレーニングディストリビューションはDirichlet Processとしてエンコードされ、データから学習可能なフレキシブルなモードの数を可能にする。
そのパラメータはベイズ最適化 (Bayesian Optimization) を用いて学習される。
高次元の課題を避けるために、データはまず別の確率モデルの不確実性スコアを用いて1次元まで投影される。
この手法が上記の課題に対処していることが示されています。
(a)モデルの縮小から生じる精度の低下(場合によっては、ベースラインよりも$\sim 100\%$の改善を観察する)を逮捕する。
決定木、線形確率モデル、勾配ブーストモデルで結果が示されます。
さらに,(1)前者よりも精度が高いこと,(2)実際に設定するハイパーパラメータが1つ必要であること,(3)木の大きさの最大深さと木数の両方をグラディエントブーストモデルで許容すること,(4)不確実性オラクルと解釈可能なモデルとの間の異なる特徴空間を横断すること,(3)GRUがn-gramを摂取する決定ツリーのオラクルとして機能すること,などが示される。
関連論文リスト
- Mean estimation in the add-remove model of differential privacy [20.78625240235862]
加算除去モデルに基づく一次元平均推定問題について検討する。
提案アルゴリズムは,実際に頻繁に使用されるアルゴリズムよりも,平均2乗誤差が2倍に向上することを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:35Z) - Online Speculative Decoding [34.987825705622555]
大規模言語モデルの推論を高速化するオンライン投機的復号法を導入する。
主なアイデアは、観測されたユーザクエリデータに対する(複数)ドラフトモデルを継続的に更新することである。
本稿では,知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,合成データと実データの両方を用いて評価する。
論文 参考訳(メタデータ) (2023-10-11T04:03:42Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - An Approximation Method for Fitted Random Forests [0.0]
本研究では,葉にデータポイントを割り当てたランダムフォレストモデルを用いて,各木を近似する手法について検討した。
具体的には,多項ロジスティック回帰の適合が予測品質を保ちながらサイズを減少させるかどうかを考察することから始める。
論文 参考訳(メタデータ) (2022-07-05T17:28:52Z) - Optimizing Binary Decision Diagrams with MaxSAT for classification [3.2894524838755608]
説明可能な人工知能への関心の高まりは、解釈可能な機械学習(ML)モデルの必要性を動機付けている。
近年、従来の手法の弱点を克服するために、そのようなモデルを計算するためのいくつかの正確な方法が提案されている。
本稿ではまず,最適なバイナリ決定図(BDD)を学習するためのSATモデルを提案する。
次に、符号化をMaxSATモデルに上げ、限られた深さで最適なBDDを学習します。
最後に、MaxSATモデルを介して見つけたBDDの互換性のあるサブツリーをマージする手法を導入することにより、フラグメンテーションの問題に取り組む。
論文 参考訳(メタデータ) (2022-03-21T23:17:37Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - Interventions and Counterfactuals in Tractable Probabilistic Models:
Limitations of Contemporary Transformations [12.47276164048813]
本研究では,SPNを因果グラフ介入推論に変換すると,限界分布の計算に還元されることを示す。
まず,PSDDから因果グラフを構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-29T15:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。