論文の概要: Extracting Weighted Automata for Approximate Minimization in Language
Modelling
- arxiv url: http://arxiv.org/abs/2106.02965v1
- Date: Sat, 5 Jun 2021 21:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:35:37.124597
- Title: Extracting Weighted Automata for Approximate Minimization in Language
Modelling
- Title(参考訳): 言語モデルにおける近似最小化のための重み付きオートマトン抽出
- Authors: Clara Lacroce, Prakash Panangaden, Guillaume Rabusseau
- Abstract要約: 1文字のアルファベット上でのデータの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。
ブラックボックスの潜在的無限ランクハンケル行列を研究するための理論的保証を提供する。
- 参考スコア(独自算出の注目度): 10.549307055348592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we study the approximate minimization problem for language
modelling. We assume we are given some language model as a black box. The
objective is to obtain a weighted finite automaton (WFA) that fits within a
given size constraint and which mimics the behaviour of the original model
while minimizing some notion of distance between the black box and the
extracted WFA. We provide an algorithm for the approximate minimization of
black boxes trained for language modelling of sequential data over a one-letter
alphabet. By reformulating the problem in terms of Hankel matrices, we leverage
classical results on the approximation of Hankel operators, namely the
celebrated Adamyan-Arov-Krein (AAK) theory. This allows us to use the spectral
norm to measure the distance between the black box and the WFA. We provide
theoretical guarantees to study the potentially infinite-rank Hankel matrix of
the black box, without accessing the training data, and we prove that our
method returns an asymptotically-optimal approximation.
- Abstract(参考訳): 本稿では,言語モデリングにおける近似最小化問題について検討する。
ブラックボックスとして言語モデルが与えられたと仮定します。
目的は、与えられたサイズ制約内に収まる重み付き有限オートマトン(WFA)を得ることであり、ブラックボックスと抽出されたWFAの間の距離の概念を最小化しながら、元のモデルの振る舞いを模倣することである。
一文字アルファベット上の逐次データの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。
ハンケル行列の観点から問題を再構成することにより、ハンケル作用素の近似、すなわち有名なアダムヤン・アロフ・クライン(Adamyan-Arov-Krein,AAK)理論に古典的な結果を利用する。
これにより、スペクトルノルムを用いてブラックボックスとWFAの間の距離を測定することができる。
我々は、ブラックボックスの無限ランクのハンケル行列をトレーニングデータにアクセスせずに研究するための理論的保証を提供し、本手法が漸近的最適近似を返すことを証明した。
関連論文リスト
- Non-Vacuous Generalization Bounds for Large Language Models [83.10315303618225]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮性が高いことがわかった。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - DeepMem: ML Models as storage channels and their (mis-)applications [0.7270112855088836]
MLモデルは,パラメータ化の超過に伴って増大するキャパシティを持つストレージチャネルであると考えている。
具体的には、トレーニング時に任意の情報をモデルに埋め込む送信機について検討する。
書き込みプリミティブの検知可能性を分析し、情報記憶の秘密性を考慮に入れた問題の新しいバージョンについて考察する。
論文 参考訳(メタデータ) (2023-07-17T19:57:10Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。
本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T17:13:11Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Minimax Optimal Quantization of Linear Models: Information-Theoretic
Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。
この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。
本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T02:39:04Z) - Bayesian Deep Learning via Subnetwork Inference [2.2835610890984164]
モデル重みの小さな部分集合に対して推論を行い、正確な予測後部を得るのに十分であることを示す。
このサブネットワーク推論フレームワークは、そのような部分集合に対して表現的で、そうでなければ、引き起こせない後続近似を使用できる。
論文 参考訳(メタデータ) (2020-10-28T01:10:11Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。