Fugu-MT 論文翻訳(概要): Extracting Weighted Automata for Approximate Minimization in Language Modelling

論文の概要: Extracting Weighted Automata for Approximate Minimization in Language Modelling

arxiv url: http://arxiv.org/abs/2106.02965v1
Date: Sat, 5 Jun 2021 21:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 17:35:37.124597
Title: Extracting Weighted Automata for Approximate Minimization in Language Modelling
Title（参考訳）: 言語モデルにおける近似最小化のための重み付きオートマトン抽出
Authors: Clara Lacroce, Prakash Panangaden, Guillaume Rabusseau
Abstract要約: 1文字のアルファベット上でのデータの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。ブラックボックスの潜在的無限ランクハンケル行列を研究するための理論的保証を提供する。
参考スコア（独自算出の注目度）: 10.549307055348592
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we study the approximate minimization problem for language modelling. We assume we are given some language model as a black box. The objective is to obtain a weighted finite automaton (WFA) that fits within a given size constraint and which mimics the behaviour of the original model while minimizing some notion of distance between the black box and the extracted WFA. We provide an algorithm for the approximate minimization of black boxes trained for language modelling of sequential data over a one-letter alphabet. By reformulating the problem in terms of Hankel matrices, we leverage classical results on the approximation of Hankel operators, namely the celebrated Adamyan-Arov-Krein (AAK) theory. This allows us to use the spectral norm to measure the distance between the black box and the WFA. We provide theoretical guarantees to study the potentially infinite-rank Hankel matrix of the black box, without accessing the training data, and we prove that our method returns an asymptotically-optimal approximation.
Abstract（参考訳）: 本稿では,言語モデリングにおける近似最小化問題について検討する。ブラックボックスとして言語モデルが与えられたと仮定します。目的は、与えられたサイズ制約内に収まる重み付き有限オートマトン(WFA)を得ることであり、ブラックボックスと抽出されたWFAの間の距離の概念を最小化しながら、元のモデルの振る舞いを模倣することである。一文字アルファベット上の逐次データの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。ハンケル行列の観点から問題を再構成することにより、ハンケル作用素の近似、すなわち有名なアダムヤン・アロフ・クライン(Adamyan-Arov-Krein,AAK)理論に古典的な結果を利用する。これにより、スペクトルノルムを用いてブラックボックスとWFAの間の距離を測定することができる。我々は、ブラックボックスの無限ランクのハンケル行列をトレーニングデータにアクセスせずに研究するための理論的保証を提供し、本手法が漸近的最適近似を返すことを証明した。

関連論文リスト

Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Learning Model Agnostic Explanations via Constraint Programming [8.257194221102225]
解釈可能な機械学習は、不透明な分類器による予測を人間に理解可能な言葉で説明するという、繰り返し発生する課題に直面している。本稿では,このタスクを制約最適化問題(Constraint Optimization Problem)として,入力データインスタンスの最小誤差と境界サイズの説明と,ブラックボックスが生成したサンプルの集合を求める。提案手法は,様々なデータセット上で実証的に評価し,最先端のアンカー法よりも統計的に優れていることを示す。
論文参考訳（メタデータ） (2024-11-13T09:55:59Z)
Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。適切な前提の下では、単純な後悔に縛られる。
論文参考訳（メタデータ） (2024-10-22T14:36:44Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
A Method of Moments Embedding Constraint and its Application to Semi-Supervised Learning [2.8266810371534152]
線形+ソフトマックス最終層を持つ非ネイティブなディープラーニングモデルには問題がある。ラテント空間は条件付き確率$p(Y|X)$だけを予測するが、完全関節分布$p(Y,X)$は予測しない。このことは、幻覚、不明瞭なバイアス、大規模なデータセットへの依存など、多くの問題に影響を及ぼす過信モデルをさらに悪化させる。
論文参考訳（メタデータ） (2024-04-27T18:41:32Z)
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning [86.15009879251386]
概念ボトルネックモデル(CBM)を用いた新しいアーキテクチャと説明可能な分類法を提案する。 CBMには、さらなる概念のセットが必要である。 CLIPをベースとしたボトルネックモデルにおいて,スパース隠れ層を用いた精度の大幅な向上を示す。
論文参考訳（メタデータ） (2024-04-04T09:43:43Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
A Sparsity-promoting Dictionary Model for Variational Autoencoders [16.61511959679188]
深層生成モデルにおける潜伏空間の構造化は、より表現力のあるモデルと解釈可能な表現を得るために重要である。本稿では,空間の空間構造をスパーシティ・プロモーティング・辞書・モデルを用いて簡易かつ効果的に構築する手法を提案する。
論文参考訳（メタデータ） (2022-03-29T17:13:11Z)
How to Robustify Black-Box ML Models? A Zeroth-Order Optimization Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法? 我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文参考訳（メタデータ） (2022-03-27T03:23:32Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Bayesian Deep Learning via Subnetwork Inference [2.2835610890984164]
モデル重みの小さな部分集合に対して推論を行い、正確な予測後部を得るのに十分であることを示す。このサブネットワーク推論フレームワークは、そのような部分集合に対して表現的で、そうでなければ、引き起こせない後続近似を使用できる。
論文参考訳（メタデータ） (2020-10-28T01:10:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。