論文の概要: GenZ: Foundational models as latent variable generators within traditional statistical models
- arxiv url: http://arxiv.org/abs/2512.24834v1
- Date: Wed, 31 Dec 2025 12:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.655764
- Title: GenZ: Foundational models as latent variable generators within traditional statistical models
- Title(参考訳): GenZ:従来の統計モデルにおける潜在変数生成系としての基礎モデル
- Authors: Marko Jojic, Nebojsa Jojic,
- Abstract要約: 我々は,解釈可能な意味的特徴を通じて基礎モデルと統計的モデリングを橋渡しするハイブリッドモデルGenZを提案する。
提案手法は,反復的プロセスを通じて意味的特徴記述を発見することによってこの問題に対処する。
Netflixの映画埋め込みでは、セマンティック記述から0.59コサイン類似度で協調フィルタリング表現を予測する。
- 参考スコア(独自算出の注目度): 7.74887919885246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GenZ, a hybrid model that bridges foundational models and statistical modeling through interpretable semantic features. While large language models possess broad domain knowledge, they often fail to capture dataset-specific patterns critical for prediction tasks. Our approach addresses this by discovering semantic feature descriptions through an iterative process that contrasts groups of items identified via statistical modeling errors, rather than relying solely on the foundational model's domain understanding. We formulate this as a generalized EM algorithm that jointly optimizes semantic feature descriptors and statistical model parameters. The method prompts a frozen foundational model to classify items based on discovered features, treating these judgments as noisy observations of latent binary features that predict real-valued targets through learned statistical relationships. We demonstrate the approach on two domains: house price prediction (hedonic regression) and cold-start collaborative filtering for movie recommendations. On house prices, our model achieves 12\% median relative error using discovered semantic features from multimodal listing data, substantially outperforming a GPT-5 baseline (38\% error) that relies on the LLM's general domain knowledge. For Netflix movie embeddings, our model predicts collaborative filtering representations with 0.59 cosine similarity purely from semantic descriptions -- matching the performance that would require approximately 4000 user ratings through traditional collaborative filtering. The discovered features reveal dataset-specific patterns (e.g., architectural details predicting local housing markets, franchise membership predicting user preferences) that diverge from the model's domain knowledge alone.
- Abstract(参考訳): 我々は,解釈可能な意味的特徴を通じて基礎モデルと統計的モデリングを橋渡しするハイブリッドモデルGenZを提案する。
大きな言語モデルは広いドメイン知識を持っているが、予測タスクに不可欠なデータセット固有のパターンをキャプチャできないことが多い。
提案手法は,基本モデルのドメイン理解にのみ依存するのではなく,統計的モデリングエラーによって識別された項目群を対比する反復的プロセスを通じて意味的特徴記述を発見することによって,この問題に対処する。
我々はこれを,意味的特徴記述子と統計モデルパラメータを協調的に最適化する一般化EMアルゴリズムとして定式化する。
この手法は,探索された特徴に基づく項目の分類を凍結基礎モデルに促し,これらの判断を,学習された統計的関係を通じて実数値的目標を予測する潜在二項特徴の雑音的な観察として扱う。
住宅価格予測(ヘドニック回帰)と映画レコメンデーションのための冷間開始協調フィルタリングという2つの領域におけるアプローチを実証する。
LLMの一般的なドメイン知識に依存した GPT-5 ベースライン (38 % 誤差) を著しく上回り, マルチモーダルリスティングデータから発見された意味的特徴を用いて, 住宅価格の12 % の相対誤差を実現する。
Netflixの映画埋め込みでは、我々のモデルは、セマンティック記述から純粋に0.59コサインの類似性を持つコラボレーティング表現を予測します。
発見された特徴は、データセット固有のパターン(例えば、地元の住宅市場を予測するアーキテクチャの詳細、ユーザーの好みを予測するフランチャイズメンバーシップ)を、モデルのドメイン知識だけから逸脱させる。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Towards Graph-Based Privacy-Preserving Federated Learning: ModelNet -- A ResNet-based Model Classification Dataset [0.3683202928838613]
本稿では,事前学習したResNet50モデルから抽出した埋め込みから構築した新しい画像分類データセットであるModelNetを紹介する。
モデルパラメータを保存するために、トレーニング済みのResNet50モデルで3つのバリエーションのクライアント固有のサブセットをトレーニングします。
マルチドメイン画像データに加えて、匿名化モデルパラメータにアクセスできるFLアルゴリズムを定義する新しい仮説を提案する。
論文 参考訳(メタデータ) (2025-05-31T08:53:16Z) - A Federated Data Fusion-Based Prognostic Model for Applications with Multi-Stream Incomplete Signals [1.2277343096128712]
本稿では、複数のユーザが共同で障害時間予測モデルを構築することができるフェデレーション予測モデルを提案する。
数値解析により,提案モデルの性能は古典的非フェデレーション予測モデルと同一であることが示唆された。
論文 参考訳(メタデータ) (2023-11-13T17:08:34Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [47.432215933099016]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Predicting is not Understanding: Recognizing and Addressing
Underspecification in Machine Learning [47.651130958272155]
下位仕様とは、ドメイン内の精度で区別できない複数のモデルの存在を指す。
我々は、不特定概念を形式化し、それを特定し、部分的に対処する方法を提案する。
論文 参考訳(メタデータ) (2022-07-06T11:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。