論文の概要: Extracting Weighted Automata for Approximate Minimization in Language
Modelling
- arxiv url: http://arxiv.org/abs/2106.02965v1
- Date: Sat, 5 Jun 2021 21:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:35:37.124597
- Title: Extracting Weighted Automata for Approximate Minimization in Language
Modelling
- Title(参考訳): 言語モデルにおける近似最小化のための重み付きオートマトン抽出
- Authors: Clara Lacroce, Prakash Panangaden, Guillaume Rabusseau
- Abstract要約: 1文字のアルファベット上でのデータの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。
ブラックボックスの潜在的無限ランクハンケル行列を研究するための理論的保証を提供する。
- 参考スコア(独自算出の注目度): 10.549307055348592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we study the approximate minimization problem for language
modelling. We assume we are given some language model as a black box. The
objective is to obtain a weighted finite automaton (WFA) that fits within a
given size constraint and which mimics the behaviour of the original model
while minimizing some notion of distance between the black box and the
extracted WFA. We provide an algorithm for the approximate minimization of
black boxes trained for language modelling of sequential data over a one-letter
alphabet. By reformulating the problem in terms of Hankel matrices, we leverage
classical results on the approximation of Hankel operators, namely the
celebrated Adamyan-Arov-Krein (AAK) theory. This allows us to use the spectral
norm to measure the distance between the black box and the WFA. We provide
theoretical guarantees to study the potentially infinite-rank Hankel matrix of
the black box, without accessing the training data, and we prove that our
method returns an asymptotically-optimal approximation.
- Abstract(参考訳): 本稿では,言語モデリングにおける近似最小化問題について検討する。
ブラックボックスとして言語モデルが与えられたと仮定します。
目的は、与えられたサイズ制約内に収まる重み付き有限オートマトン(WFA)を得ることであり、ブラックボックスと抽出されたWFAの間の距離の概念を最小化しながら、元のモデルの振る舞いを模倣することである。
一文字アルファベット上の逐次データの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。
ハンケル行列の観点から問題を再構成することにより、ハンケル作用素の近似、すなわち有名なアダムヤン・アロフ・クライン(Adamyan-Arov-Krein,AAK)理論に古典的な結果を利用する。
これにより、スペクトルノルムを用いてブラックボックスとWFAの間の距離を測定することができる。
我々は、ブラックボックスの無限ランクのハンケル行列をトレーニングデータにアクセスせずに研究するための理論的保証を提供し、本手法が漸近的最適近似を返すことを証明した。
関連論文リスト
- Learning Model Agnostic Explanations via Constraint Programming [8.257194221102225]
解釈可能な機械学習は、不透明な分類器による予測を人間に理解可能な言葉で説明するという、繰り返し発生する課題に直面している。
本稿では,このタスクを制約最適化問題(Constraint Optimization Problem)として,入力データインスタンスの最小誤差と境界サイズの説明と,ブラックボックスが生成したサンプルの集合を求める。
提案手法は,様々なデータセット上で実証的に評価し,最先端のアンカー法よりも統計的に優れていることを示す。
論文 参考訳(メタデータ) (2024-11-13T09:55:59Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning [2.8266810371534152]
線形+ソフトマックス最終層を持つ非ネイティブなディープラーニングモデルには問題がある。
ラテント空間は条件付き確率$p(Y|X)$だけを予測するが、完全関節分布$p(Y,X)$は予測しない。
このことは、幻覚、不明瞭なバイアス、大規模なデータセットへの依存など、多くの問題に影響を及ぼす過信モデルをさらに悪化させる。
論文 参考訳(メタデータ) (2024-04-27T18:41:32Z) - Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。
CBMには、さらなる概念のセットが必要である。
CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-04-04T09:43:43Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Bayesian Deep Learning via Subnetwork Inference [2.2835610890984164]
モデル重みの小さな部分集合に対して推論を行い、正確な予測後部を得るのに十分であることを示す。
このサブネットワーク推論フレームワークは、そのような部分集合に対して表現的で、そうでなければ、引き起こせない後続近似を使用できる。
論文 参考訳(メタデータ) (2020-10-28T01:10:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。