論文の概要: Validity Threats for Foundation Model Research
- arxiv url: http://arxiv.org/abs/2606.05029v1
- Date: Wed, 03 Jun 2026 15:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.871329
- Title: Validity Threats for Foundation Model Research
- Title(参考訳): 基礎モデル研究における妥当性の脅威
- Authors: Gunnar König, Martin Pawelczyk, Ulrike von Luxburg, Sebastian Bordt,
- Abstract要約: 制御された実験は、機械学習研究のバックボーンである。
しかし、近代的な基礎モデルの規模では、これらは違法に高価になっている。
代わりに、コミュニティは、理想的な実験をほんの少しのコストで近似する研究戦略にますます依存している。
- 参考スコア(独自算出の注目度): 19.108459045725617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlled experiments are the backbone of machine learning research, but at the scale of modern foundation models, they have become prohibitively expensive. Instead, the community increasingly relies on research strategies that approximate the ideal experiment at a fraction of the cost: proxy experiments and scaling laws, observational studies with publicly available models, and single-run designs that leverage variation within individual training runs. In this work, we argue that there is no free lunch when approximating large-scale experiments on a compute budget. Specifically, savings in compute come at the cost of validity threats -- hidden and sometimes untestable assumptions that, when violated, can invalidate research claims. To help navigate such threats, we propose an evaluation framework that casts foundation model research as a causal inference problem. Within this framework, we evaluate different research strategies through four types of validity adapted from the empirical social sciences -- statistical, internal, external, and construct validity. We find that each strategy comes with a characteristic validity profile: proxy experiments trade external and construct validity for statistical and internal validity; observational studies face confounding and effect heterogeneity; and single-run designs are strained by interference between treated units. This analysis reveals several validity threats that have received insufficient attention in the literature. Overall, our evaluation framework provides researchers with a practical toolkit for scrutinizing validity threats in foundation model research~designs.
- Abstract(参考訳): 制御された実験は機械学習研究のバックボーンであるが、現代の基礎モデルの規模では、それらは違法に高価になっている。
代わりに、コミュニティは、この理想的な実験をほんの少しのコストで近似する研究戦略をますます頼りにしている。
本研究では,大規模実験を計算予算で近似した場合,無料のランチは存在しないことを論じる。
具体的には、計算の貯蓄は、不正な場合、研究の主張を無効化できるという、隠れた、時には証明不可能な仮定のコストがかかる。そのような脅威をナビゲートするために、基礎モデル研究を因果推論問題とみなす評価枠組みを提案する。この枠組みでは、実証的な社会科学から適合した4種類の妥当性(統計的、内的、外的、構成的妥当性)を用いて、異なる研究戦略を評価する。
プロキシ実験は, 外部と内部の妥当性を交換し, 外部と内部の妥当性を交換し, 観測的研究は, 整合性と効果の不均一性に直面し, 単走設計は処理ユニット間の干渉によって歪む。
この分析は、文献であまり注目されていないいくつかの妥当性の脅威を明らかにしている。
全体として,本評価フレームワークは,基礎モデル研究における妥当性の検証を行うための実践的ツールキットを提供する。
関連論文リスト
- Rethinking Software Empirical Studies with Structural Causal Models [12.18241004961061]
因果推論(Causal Inference)は、経験的ソフトウェアエンジニアリング(ESE)を従来の統計的アソシエーションを超えて進めるための基本的なアプローチを提供する。
本稿では,Judea Pearl の因果推論パラダイムを ESE コンテキストで運用するフレームワーク CausalSE を紹介する。
論文 参考訳(メタデータ) (2026-05-27T13:41:05Z) - Exploring the Garden of Forking Paths in Empirical Software Engineering Research: A Multiverse Analysis [3.6324565773746147]
本論文は,いわゆる多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元
9つの重要な分析的決定を、少なくとも1つの等しく防御可能な代替手段で特定する。
圧倒的多数は質的に異なる結果をもたらし、時には反対の結果ももたらした。
論文 参考訳(メタデータ) (2025-12-09T18:47:00Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Addressing Key Challenges of Adversarial Attacks and Defenses in the Tabular Domain: A Methodological Framework for Coherence and Consistency [25.830427564563422]
CSAD(Class-Specific Anomaly Detection)は,新しい異常検出手法である。
CSADは, 広い良性分布ではなく, 予測されたクラス分布に対して, 対数サンプルを評価する。
本評価では, 異常検出率とSHAPに基づく評価を併用し, 対向検体品質のより包括的測定を行う。
論文 参考訳(メタデータ) (2024-12-10T09:17:09Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [58.05402364136958]
実験と観測を組み合わせた二重機械学習手法を提案する。
本フレームワークは, より軽度な仮定の下で, 外部の妥当性と無知性に対するファルシフィケーションテストを提案する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Targeting Learning: Robust Statistics for Reproducible Research [1.1455937444848387]
ターゲティング・ラーニング(Targeted Learning)は、因果推論、機械学習、統計理論の進歩を統一して、科学的に影響のある質問に統計的信頼性で答えるのに役立つ統計分野である。
ターゲット学習のロードマップは、仮説を最小化し、利用可能な科学的知識にのみ注意深く根ざすように、統計的手続きを調整することを強調する。
論文 参考訳(メタデータ) (2020-06-12T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。