論文の概要: TabPFN-Wide: Continued Pre-Training for Extreme Feature Counts
- arxiv url: http://arxiv.org/abs/2510.06162v1
- Date: Tue, 07 Oct 2025 17:28:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.385113
- Title: TabPFN-Wide: Continued Pre-Training for Extreme Feature Counts
- Title(参考訳): TabPFN-Wide: エクストリーム機能カウントの事前トレーニングを継続
- Authors: Christopher Kolberg, Katharina Eggensperger, Nico Pfeifer,
- Abstract要約: 既存のモデルを拡張する戦略として,事前にカスタマイズしたデータから抽出した合成データの事前学習を継続する手法を提案する。
結果のモデルであるTabPFN-Wideは、ノイズに対する堅牢性を改善しながら、ベースモデルのパフォーマンスを一致または超過する。
- 参考スコア(独自算出の注目度): 2.3448377994589644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Revealing novel insights from the relationship between molecular measurements and pathology remains a very impactful application of machine learning in biomedicine. Data in this domain typically contain only a few observations but thousands of potentially noisy features, posing challenges for conventional machine learning approaches. While prior-data fitted networks emerge as foundation models for tabular data, they are currently not suited to handle large feature counts (>500). Although feature reduction enables their application, it hinders feature importance analysis. We propose a strategy that extends existing models through continued pre-training on synthetic data sampled from a customized prior. The resulting model, TabPFN-Wide, matches or exceeds its base model's performance while exhibiting improved robustness to noise. It seamlessly scales beyond 50,000 features, regardless of noise levels, while maintaining inherent interpretability, which is critical for biomedical applications. Our results show that prior-informed adaptation is suitable to enhance the capability of foundation models for high-dimensional data. On real-world biomedical datasets many of the most relevant features identified by the model overlap with previous biological findings, while others propose potential starting points for future studies.
- Abstract(参考訳): 分子計測と病理学の関係から新たな知見を導き出すことは、バイオメディシンにおける機械学習の非常に影響力のある応用である。
この領域のデータは通常、少数の観測のみを含むが、数千の潜在的なノイズのある特徴を含み、従来の機械学習アプローチの課題を提起する。
先行データ適合型ネットワークは表データの基盤モデルとして登場したが、現在、大きな特徴数(>500)を扱うには適していない。
機能削減は応用を可能にするが、機能の重要性の分析を妨げる。
既存のモデルを拡張する戦略として,事前にカスタマイズしたデータから抽出した合成データの事前学習を継続する手法を提案する。
結果のモデルであるTabPFN-Wideは、ノイズに対する堅牢性を改善しながら、ベースモデルのパフォーマンスを一致または超過する。
ノイズレベルに関わらず、5万以上の機能をシームレスにスケールし、固有の解釈可能性を維持します。
以上の結果から, 先行インフォームド適応は高次元データに対する基礎モデルの能力を高めるのに適していることが示された。
現実世界のバイオメディカルデータセットでは、モデルによって識別される最も関連性の高い特徴の多くは、以前の生物学的発見と重なり合う。
関連論文リスト
- On the Importance of Behavioral Nuances: Amplifying Non-Obvious Motor Noise Under True Empirical Considerations May Lead to Briefer Assays and Faster Classification Processes [0.0]
我々は、パーソナライズされた統計力を保ちながら、簡単なデータサンプルを取ることができる感情コンピューティングプラットフォームを開発した。
これは、短い(5秒の)顔ビデオから登録された時系列データに存在するマイクロピークから派生した新しいデータタイプを組み合わせることで実現される。
我々は、自閉症者に存在する動的および幾何学的パターンと、神経型発達においてより一般的に見られるパターンとを区別する新しい方法を提供する。
論文 参考訳(メタデータ) (2025-08-18T09:05:40Z) - Benchmarking Foundation Models for Mitotic Figure Classification [0.37334049820361814]
自己教師付き学習技術は、大規模なニューラルネットワークのトレーニングに大量のラベルのないデータを使用することを可能にした。
本研究では,ミオティックフィギュア分類における基礎モデルの利用について検討する。
我々は、すべてのモデルと、CNNとVision Transformerの両方のエンドツーエンドトレーニングベースラインを比較した。
論文 参考訳(メタデータ) (2025-08-06T13:30:40Z) - Beyond Sensor Data: Foundation Models of Behavioral Data from Wearables Improve Health Predictions [5.608192262118104]
162K人を対象に,2.5B時間以上のウェアラブルデータを用いた行動信号の基礎モデルを構築した。
本モデルでは,個人レベルの分類や時間変化による健康状態の予測など,さまざまな実世界のアプリケーションにまたがる高い性能を示す。
論文 参考訳(メタデータ) (2025-06-30T19:01:00Z) - Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all [1.507700065820919]
転写学的シークエンシングの最近の進歩は、価値ある洞察を明らかにする新しい機会を提供する。
摂動解析におけるこれらの上昇モデルの有効性をしっかり評価するためのベンチマークは行われていない。
本稿では,生物学的に動機づけた新しい評価フレームワークと摂動解析タスクの階層について述べる。
論文 参考訳(メタデータ) (2024-10-17T18:27:51Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。