Fugu-MT 論文翻訳(概要): Binary Hypothesis Testing for Softmax Models and Leverage Score Models

論文の概要: Binary Hypothesis Testing for Softmax Models and Leverage Score Models

arxiv url: http://arxiv.org/abs/2405.06003v1
Date: Thu, 9 May 2024 15:56:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-13 17:36:09.268619
Title: Binary Hypothesis Testing for Softmax Models and Leverage Score Models
Title（参考訳）: ソフトマックスモデルとレバレッジスコアモデルのための二元仮説テスト
Authors: Yeqi Gao, Yuzhou Gu, Zhao Song,
Abstract要約: ソフトマックスモデルの設定における二元仮説テストの問題点を考察する。我々はソフトマックスモデルとレバレッジスコアモデルとの類似性を描く。
参考スコア（独自算出の注目度）: 8.06972158448711
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Softmax distributions are widely used in machine learning, including Large Language Models (LLMs) where the attention unit uses softmax distributions. We abstract the attention unit as the softmax model, where given a vector input, the model produces an output drawn from the softmax distribution (which depends on the vector input). We consider the fundamental problem of binary hypothesis testing in the setting of softmax models. That is, given an unknown softmax model, which is known to be one of the two given softmax models, how many queries are needed to determine which one is the truth? We show that the sample complexity is asymptotically $O(\epsilon^{-2})$ where $\epsilon$ is a certain distance between the parameters of the models. Furthermore, we draw analogy between the softmax model and the leverage score model, an important tool for algorithm design in linear algebra and graph theory. The leverage score model, on a high level, is a model which, given vector input, produces an output drawn from a distribution dependent on the input. We obtain similar results for the binary hypothesis testing problem for leverage score models.
Abstract（参考訳）: ソフトマックス分布は、注目ユニットがソフトマックス分布を使用する大規模言語モデル(LLM)など、機械学習で広く使用されている。注意単位をソフトマックスモデルとして抽象化し、ベクトル入力が与えられた場合、モデルがソフトマックス分布から引き出された出力を生成する(ベクトル入力に依存する)。ソフトマックスモデルの設定における二元仮説テストの基本的問題について考察する。つまり、与えられた2つのソフトマックスモデルのうちの1つである未知のソフトマックスモデルを考えると、どれが真実であるかを決定するのに何つのクエリが必要なのか? サンプル複雑性が漸近的に$O(\epsilon^{-2})$であることを示す。さらに,線形代数やグラフ理論におけるアルゴリズム設計において重要なツールである,ソフトマックスモデルとレバレッジスコアモデルとの類似性を描く。高レベルのレバレッジスコアモデルは、与えられたベクトル入力によって、入力に依存する分布から引き出された出力を生成するモデルである。我々は,2値仮説テスト問題に対して,レバレッジスコアモデルに対して同様の結果を得る。

関連論文リスト

Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文参考訳（メタデータ） (2025-03-07T23:24:24Z)
Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文参考訳（メタデータ） (2025-01-15T04:09:21Z)
Model Stealing for Any Low-Rank Language Model [25.16701867917684]
我々は、単純で数学的に計算可能な設定を研究することによって、言語モデルを盗むという理論的理解を構築する。我々の主な成果は、低ランク分布を学習するための条件付きクエリモデルにおける効率的なアルゴリズムである。これは、少なくとも理論的には、推論時に機械学習モデルがより複雑な問題を解くことができるという興味深い例である。
論文参考訳（メタデータ） (2024-11-12T04:25:31Z)
Beyond Closure Models: Learning Chaotic-Systems via Physics-Informed Neural Operators [78.64101336150419]
カオスシステムの長期的挙動を予測することは、気候モデリングなどの様々な応用に不可欠である。このような完全解法シミュレーションに対する別のアプローチは、粗いグリッドを使用して、時間テキストモデルによってエラーを修正することである。この制限を克服する物理インフォームド・ニューラル演算子(PINO)を用いたエンド・ツー・エンドの学習手法を提案する。
論文参考訳（メタデータ） (2024-08-09T17:05:45Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
BayesBlend: Easy Model Blending using Pseudo-Bayesian Model Averaging, Stacking and Hierarchical Stacking in Python [0.0]
重みを推定し、複数の(ベイジアン)モデルの予測分布をブレンドするために、BayesBlend Pythonパッケージを導入する。ベイズブレンドは、モデルウェイトを推定するために擬ベイズモデルの平均化、積み重ね、一意的に階層的ベイズ積み重ねを実装している。ベイズブレンドの保険損失モデリングの例を例に紹介する。
論文参考訳（メタデータ） (2024-04-30T19:15:33Z)
A Pseudo-Semantic Loss for Autoregressive Models with Logical Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文参考訳（メタデータ） (2023-12-06T20:58:07Z)
Attention Scheme Inspired Softmax Regression [20.825033982038455]
大きな言語モデル(LLM)は、人間の社会に変革をもたらした。 LLMにおける鍵計算の1つはソフトマックス単位である。この研究はソフトマックス単位にインスピレーションを与え、ソフトマックス回帰問題を定義する。
論文参考訳（メタデータ） (2023-04-20T15:50:35Z)
r-softmax: Generalized Softmax with Controllable Sparsity Rate [11.39524236962986]
本稿では,ソフトマックスの修正であるr-softmaxを提案し,スパース確率分布を制御可能なスペーサ率で出力する。我々は、r-softmaxが他のソフトマックス代替品よりも優れており、元のソフトマックスと高い競争力を持つ複数のマルチラベルデータセットを示す。
論文参考訳（メタデータ） (2023-04-11T14:28:29Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)
Predicting Attention Sparsity in Transformers [0.9786690381850356]
本稿では, 遠心注意の空間パターンを計算前に同定するモデルであるスペーサーファインダーを提案する。我々の研究は、予測された注目グラフの間隔とリコールの間のトレードオフを広範囲に分析することで、モデル効率を研究するための新しい角度を提供する。
論文参考訳（メタデータ） (2021-09-24T20:51:21Z)
Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文参考訳（メタデータ） (2021-02-10T11:04:17Z)
Estimating Stochastic Linear Combination of Non-linear Regressions Efficiently and Scalably [23.372021234032363]
サブサンプルサイズが大きくなると、推定誤差が過度に犠牲になることを示す。私たちの知る限りでは、線形テキスト+確率モデルが保証される最初の研究です。
論文参考訳（メタデータ） (2020-10-19T07:15:38Z)
On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。異なる家族間でのモデルランキングの相関はみられない。
論文参考訳（メタデータ） (2020-02-17T20:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。