論文の概要: Reliable Measures of Spread in High Dimensional Latent Spaces
- arxiv url: http://arxiv.org/abs/2212.08172v1
- Date: Thu, 15 Dec 2022 22:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 14:27:07.302255
- Title: Reliable Measures of Spread in High Dimensional Latent Spaces
- Title(参考訳): 高次元潜在空間における拡散の信頼性尺度
- Authors: Anna C. Marbut, Katy McKinney-Bock and Travis J. Wheeler
- Abstract要約: データ拡散の一般的な測定基準は、モデル間の遅延空間の使用を比較するための信頼性のある指標を提供していない、と我々は主張する。
データ拡散の8つの代替手段を提案し,検討するが,そのうちの1つは現在の指標よりも改善されている。
提案手法のうち1つの主成分ベース測度と1つのエントロピーベース測度を推奨する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Understanding geometric properties of natural language processing models'
latent spaces allows the manipulation of these properties for improved
performance on downstream tasks. One such property is the amount of data spread
in a model's latent space, or how fully the available latent space is being
used. In this work, we define data spread and demonstrate that the commonly
used measures of data spread, Average Cosine Similarity and a partition
function min/max ratio I(V), do not provide reliable metrics to compare the use
of latent space across models. We propose and examine eight alternative
measures of data spread, all but one of which improve over these current
metrics when applied to seven synthetic data distributions. Of our proposed
measures, we recommend one principal component-based measure and one
entropy-based measure that provide reliable, relative measures of spread and
can be used to compare models of different sizes and dimensionalities.
- Abstract(参考訳): 自然言語処理モデルの潜在空間の幾何学的性質を理解することで、下流タスクのパフォーマンスを改善するためにこれらの特性を操作できる。
そのような特性の1つは、モデルの潜在空間に広がるデータ量や、利用可能な潜在空間がどの程度使われているかである。
本研究では,データスプレッド,平均コサイン類似度,分断関数min/max比i(v)について,モデル間における潜在空間の利用を比較するための信頼性の高い指標を提供していないことを示す。
7つの合成データ分布に適用した場合の現在の測定値よりも改善したデータ拡散の8つの代替手段を提案し,検討した。
提案手法のうち1つの主成分に基づく測度と1つのエントロピーに基づく測度を推奨する。
関連論文リスト
- A Likelihood Based Approach to Distribution Regression Using Conditional Deep Generative Models [6.647819824559201]
本研究では,条件付き深部生成モデルの推定のための可能性に基づくアプローチの大規模サンプル特性について検討する。
その結果,条件分布を推定するための最大極大推定器の収束率を導いた。
論文 参考訳(メタデータ) (2024-10-02T20:46:21Z) - (Deep) Generative Geodesics [57.635187092922976]
2つのデータポイント間の類似性を評価するために,新しい測定基準を導入する。
我々の計量は、生成距離と生成測地学の概念的定義に繋がる。
彼らの近似は、穏やかな条件下で真の値に収束することが証明されている。
論文 参考訳(メタデータ) (2024-07-15T21:14:02Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Metric Space Magnitude for Evaluating the Diversity of Latent Representations [13.272500655475486]
我々は,潜伏表現の内在的多様性の等級に基づく尺度群を開発する。
我々の測度はデータの摂動下で確実に安定しており、効率的に計算でき、厳密なマルチスケールのキャラクタリゼーションと潜在表現の比較を可能にする。
i) 多様性の自動推定, (ii) モード崩壊の検出, (iii) テキスト, 画像, グラフデータの生成モデルの評価など, さまざまな領域やタスクにおけるそれらの実用性と優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T18:19:07Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Estimating Divergences in High Dimensions [6.172809837529207]
本研究では,高次元データにおける分散度推定のための分解可能なモデルを提案する。
これにより、高次元分布の推定密度を低次元関数の積に分解することができる。
最大極大推定器から分解可能なモデルを用いてクルバック・リーブラーの発散を推定すると,既存の発散推定法よりも優れることを示す。
論文 参考訳(メタデータ) (2021-12-08T20:37:28Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - Manifold Hypothesis in Data Analysis: Double Geometrically-Probabilistic
Approach to Manifold Dimension Estimation [92.81218653234669]
本稿では, 多様体仮説の検証と基礎となる多様体次元推定に対する新しいアプローチを提案する。
我々の幾何学的手法はミンコフスキー次元計算のためのよく知られたボックスカウントアルゴリズムのスパースデータの修正である。
実データセットの実験では、2つの手法の組み合わせに基づく提案されたアプローチが強力で効果的であることが示されている。
論文 参考訳(メタデータ) (2021-07-08T15:35:54Z) - Featurized Density Ratio Estimation [82.40706152910292]
本研究では,2つの分布を推定前の共通特徴空間にマッピングするために,可逆生成モデルを活用することを提案する。
この偉業化は、学習された入力空間の密度比が任意に不正確な場合、潜在空間において密度が密接な関係をもたらす。
同時に、特徴写像の可逆性は、特徴空間で計算された比が入力空間で計算された比と同値であることを保証する。
論文 参考訳(メタデータ) (2021-07-05T18:30:26Z) - Latent Space Model for Higher-order Networks and Generalized Tensor
Decomposition [18.07071669486882]
我々は、複雑な高次ネットワーク相互作用を研究するために、一般的な潜在空間モデルとして定式化された統一フレームワークを導入する。
一般化された多線形カーネルをリンク関数として、潜伏位置と観測データとの関係を定式化する。
本手法が合成データに与える影響を実証する。
論文 参考訳(メタデータ) (2021-06-30T13:11:17Z) - A prior-based approximate latent Riemannian metric [3.716965622352967]
本研究では,単純かつ効率的かつ堅牢な生成モデルの潜在空間におけるサーロゲート共形生成メトリックを提案する。
提案する計量の挙動を理論的に解析し,実際に使用することは理にかなっていることを示す。
また,提案手法を生命科学におけるデータ分析に適用する可能性を示す。
論文 参考訳(メタデータ) (2021-03-09T08:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。