論文の概要: On Procrustes Contamination in Machine Learning Applications of Geometric Morphometrics
- arxiv url: http://arxiv.org/abs/2601.18448v1
- Date: Mon, 26 Jan 2026 12:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.827492
- Title: On Procrustes Contamination in Machine Learning Applications of Geometric Morphometrics
- Title(参考訳): 幾何形態計測の機械学習応用におけるプロクリスト汚染について
- Authors: Lloyd Austin Courtenay,
- Abstract要約: Geometric morphometrics (GMM) は形状変化の定量化に広く用いられ、最近では機械学習(ML)解析の入力として使われている。
標準のプラクティスは、データをトレーニングとテストセットに分割する前に、すべての標本を一般化プロクリスト分析(GPA)を介して整列させる。
ここでは、制御された2次元および3次元シミュレーションを用いて、GPAによる汚染の影響を正式に特徴づける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Geometric morphometrics (GMM) is widely used to quantify shape variation, more recently serving as input for machine learning (ML) analyses. Standard practice aligns all specimens via Generalized Procrustes Analysis (GPA) prior to splitting data into training and test sets, potentially introducing statistical dependence and contaminating downstream predictive models. Here, the effects of GPA-induced contamination are formally characterised using controlled 2D and 3D simulations across varying sample sizes, landmark densities, and allometric patterns. A novel realignment procedure is proposed, whereby test specimens are aligned to the training set prior to model fitting, eliminating cross-sample dependency. Simulations reveal a robust "diagonal" in sample-size vs. landmark-space, reflecting the scaling of RMSE under isotropic variation, with slopes analytically derived from the degrees of freedom in Procrustes tangent space. The importance of spatial autocorrelation among landmarks is further demonstrated using linear and convolutional regression models, highlighting performance degradation when landmark relationships are ignored. This work establishes the need for careful preprocessing in ML applications of GMM, provides practical guidelines for realignment, and clarifies fundamental statistical constraints inherent to Procrustes shape space.
- Abstract(参考訳): Geometric morphometrics (GMM) は形状変化の定量化に広く用いられ、最近では機械学習(ML)解析の入力として使われている。
標準慣行は、データをトレーニングとテストセットに分割する前に、一般化されたプロクリスト分析(GPA)を通じて全ての標本を整列させ、統計的依存と下流予測モデルを汚染する可能性がある。
ここでは, GPAによる汚染の影響を, 様々な試料サイズ, ランドマーク密度, およびアロメトリーパターンの制御された2次元および3次元シミュレーションを用いて公式に特徴づける。
モデル適合前に試験片をトレーニングセットに整列させて, クロスサンプル依存性を除去する, 新規な調整手順が提案されている。
シミュレーションでは、サンプルサイズとランドマーク空間におけるロバストな対角線が示され、RMSEの等方的変動の下でのスケーリングを反映し、プロクリストス接地空間における自由度から解析的に導かれる斜面が示される。
ランドマーク間の空間的自己相関の重要性は、線形回帰モデルと畳み込み回帰モデルを用いてさらに証明され、ランドマーク関係が無視された場合のパフォーマンス劣化が強調される。
この研究は、GMMのMLアプリケーションにおける慎重な前処理の必要性を確立し、実現のための実践的なガイドラインを提供し、Procrustes形状空間に固有の基本的な統計的制約を明らかにする。
関連論文リスト
- SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - On metric choice in dimension reduction for Fréchet regression [7.161207910629032]
Fr'echetレグレッションは、非伝統的なデータ型を分析するために、現代のデータ分析において主要な存在になりつつある。
これは特に、継続的なモニタリングやイメージングデータのような複雑な健康データの分析に有用である。
論文 参考訳(メタデータ) (2024-10-02T17:39:34Z) - Diffusion posterior sampling for simulation-based inference in tall data settings [53.17563688225137]
シミュレーションベース推論(SBI)は、入力パラメータを所定の観測に関連付ける後部分布を近似することができる。
本研究では、モデルのパラメータをより正確に推測するために、複数の観測値が利用できる、背の高いデータ拡張について考察する。
提案手法を,最近提案した各種数値実験の競合手法と比較し,数値安定性と計算コストの観点から,その優位性を実証した。
論文 参考訳(メタデータ) (2024-04-11T09:23:36Z) - Perturbative partial moment matching and gradient-flow adaptive importance sampling transformations for Bayesian leave one out cross-validation [0.9895793818721335]
我々は、$T(boldsymboltheta)=boldsymboltheta + h Q(boldsymboltheta)$ for $0hll 1,$という形の摂動変換の使用を動機付けている。
我々はロジスティック回帰と浅いReLU活性化ニューラルネットワークの場合のクローズドフォーム表現を導出する。
論文 参考訳(メタデータ) (2024-02-13T01:03:39Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Conditional Korhunen-Lo\'{e}ve regression model with Basis Adaptation
for high-dimensional problems: uncertainty quantification and inverse
modeling [62.997667081978825]
本稿では,物理系の観測可能な応答のサロゲートモデルの精度を向上させる手法を提案する。
本研究では,定常水理応答のBasis Adaptation (BA)法による代理モデル構築に提案手法を適用した。
論文 参考訳(メタデータ) (2023-07-05T18:14:38Z) - Data-driven reduced-order modelling for blood flow simulations with
geometry-informed snapshots [0.0]
類似しているが異なる領域における血流シミュレーションの効率的な予測法として,データ駆動サロゲートモデルを提案する。
幾何パラメータに対する非侵入的還元次数モデルが適切な分解を用いて構築される。
ラジアル基底関数補間器は、縮小順序モデルの縮小係数を予測するために訓練される。
論文 参考訳(メタデータ) (2023-02-21T21:18:17Z) - Mixed Effects Neural ODE: A Variational Approximation for Analyzing the
Dynamics of Panel Data [50.23363975709122]
パネルデータ解析に(固定・ランダムな)混合効果を取り入れたME-NODEという確率モデルを提案する。
我々は、Wong-Zakai定理によって提供されるSDEの滑らかな近似を用いて、我々のモデルを導出できることを示す。
次に、ME-NODEのためのエビデンスに基づく下界を導出し、(効率的な)トレーニングアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-02-18T22:41:51Z) - Inverse Learning of Symmetries [71.62109774068064]
2つの潜在部分空間からなるモデルで対称性変換を学ぶ。
我々のアプローチは、情報ボトルネックと連続的な相互情報正規化器の組み合わせに基づいています。
我々のモデルは, 人工的および分子的データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-02-07T13:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。