論文の概要: Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior
- arxiv url: http://arxiv.org/abs/2506.03444v1
- Date: Tue, 03 Jun 2025 22:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.0821
- Title: Exploiting LLMs for Automatic Hypothesis Assessment via a Logit-Based Calibrated Prior
- Title(参考訳): Logit-based Calibrated Priorによる自動仮説評価のためのLCMのエクスプロイト
- Authors: Yue Gong, Raul Castro Fernandez,
- Abstract要約: 統計的な関係が多数あるので、どれが新しく、さらに探究する価値のあるものかを自動で評価できますか?
我々は,モデルの生の出力ロジットを,相関値上のキャリブレーションされた連続的な予測分布に変換する,ロジットに基づくキャリブレーション事前(Calibrated Prior)を提案する。
実世界の変数対2,096のベンチマークで事前評価を行い, 符号精度78.8%, 平均絶対誤差0.26, 95%信頼区間カバレッジ89.2%を達成した。
- 参考スコア(独自算出の注目度): 8.58640746528909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As hypothesis generation becomes increasingly automated, a new bottleneck has emerged: hypothesis assessment. Modern systems can surface thousands of statistical relationships-correlations, trends, causal links-but offer little guidance on which ones are novel, non-trivial, or worthy of expert attention. In this work, we study the complementary problem to hypothesis generation: automatic hypothesis assessment. Specifically, we ask: given a large set of statistical relationships, can we automatically assess which ones are novel and worth further exploration? We focus on correlations as they are a common entry point in exploratory data analysis that often serve as the basis for forming deeper scientific or causal hypotheses. To support automatic assessment, we propose to leverage the vast knowledge encoded in LLMs' weights to derive a prior distribution over the correlation value of a variable pair. If an LLM's prior expects the correlation value observed, then such correlation is not surprising, and vice versa. We propose the Logit-based Calibrated Prior, an LLM-elicited correlation prior that transforms the model's raw output logits into a calibrated, continuous predictive distribution over correlation values. We evaluate the prior on a benchmark of 2,096 real-world variable pairs and it achieves a sign accuracy of 78.8%, a mean absolute error of 0.26, and 95% credible interval coverage of 89.2% in predicting Pearson correlation coefficient. It also outperforms a fine-tuned RoBERTa classifier in binary correlation prediction and achieves higher precision@K in hypothesis ranking. We further show that the prior generalizes to correlations not seen during LLM pretraining, reflecting context-sensitive reasoning rather than memorization.
- Abstract(参考訳): 仮説生成が自動化されるにつれて、仮説アセスメント(仮説アセスメント)という新たなボトルネックが出現した。
現代のシステムは、何千もの統計的関係関係、傾向、因果関係を表わすことができるが、新しいもの、自明なもの、専門家の注意に値するものはほとんどない。
本研究では,仮説生成の相補的問題である自動仮説評価について検討する。
統計的な関係が多数あるので、どれが新しく、さらに探究する価値のあるものかを自動で評価できますか?
我々は、より深い科学的または因果的な仮説を形成する基盤となることが多い探索データ分析において、相関が共通のエントリポイントであることに焦点をあてる。
自動評価を支援するために,LLMの重みに符号化された膨大な知識を利用して,変数ペアの相関値に対する事前分布を導出することを提案する。
LLMの先行値が観測された相関値を期待するならば、そのような相関は驚きではなく、その逆である。
そこで本研究では, LLM を用いた相関式である Logit-based Calibrated Prior を提案し, モデルの生の出力ロジットを, 相関値上でのキャリブレーション, 連続的な予測分布に変換する。
実世界の変数対2,096のベンチマークで事前評価を行い, 符号精度78.8%, 平均絶対誤差0.26, 95%信頼区間カバレッジ89.2%を達成した。
また、バイナリ相関予測において微調整されたRoBERTa分類器を上回り、仮説ランキングにおいて高い精度@Kを達成する。
さらに, LLM事前学習中にみられない相関関係への事前一般化が, 記憶よりも文脈に敏感な推論を反映していることが示唆された。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
この設定では、一般化されたクロスバリデーション推定器(GCV)がサンプル外リスクを正確に予測できないことを示す。
さらに、テストポイントがトレーニングセットと非自明な相関を持つ場合、時系列予測でしばしば発生する設定にまで分析を拡張します。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Learning Robust Classifiers with Self-Guided Spurious Correlation Mitigation [26.544938760265136]
ディープニューラル分類器は、入力のスプリアス属性とターゲットの間のスプリアス相関に頼り、予測を行う。
本稿では,自己誘導型スプリアス相関緩和フレームワークを提案する。
予測行動の違いを識別するために分類器の訓練を行うことで,事前知識を必要とせず,素因関係への依存を軽減できることを示す。
論文 参考訳(メタデータ) (2024-05-06T17:12:21Z) - Challenges in Variable Importance Ranking Under Correlation [6.718144470265263]
本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T19:02:13Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Fine-grained Correlation Loss for Regression [20.175415393263037]
本稿では, 従来の回帰課題を再考し, 微粒化相関損失を直接最適化する手法を提案する。
本手法は,画像品質評価とバイオメトリック計測を含む2つの典型的な超音波画像回帰タスクに対して広範囲に検証する。
論文 参考訳(メタデータ) (2022-07-01T11:25:50Z) - Decoding Causality by Fictitious VAR Modeling [0.0]
まず, 虚ベクトル自己回帰モデルを用いて, 因果関係の平衡を設定した。
平衡において、長期の関係はノイズから特定され、突発関係は無視的に0に近い。
また、気候変動に対する因果要因の寄与を推定するためのアプローチも適用する。
論文 参考訳(メタデータ) (2021-11-14T22:43:02Z) - Beyond Marginal Uncertainty: How Accurately can Bayesian Regression
Models Estimate Posterior Predictive Correlations? [13.127549105535623]
入力位置の異なる関数値間の予測的相関を推定することは、しばしば有用である。
まず、後続の予測相関に依存する下流タスクについて考察する:トランスダクティブアクティブラーニング(TAL)
TALは高価で間接的にアルゴリズムの開発を誘導できないため、予測相関をより直接的に評価する2つの指標を導入する。
論文 参考訳(メタデータ) (2020-11-06T03:48:59Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。