論文の概要: Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse
- arxiv url: http://arxiv.org/abs/2602.18710v1
- Date: Sat, 21 Feb 2026 04:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.254507
- Title: Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse
- Title(参考訳): 多くのAIアナリスト、ひとつのデータセット:エージェントデータサイエンスのマルチバースをナビゲートする
- Authors: Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu,
- Abstract要約: 大規模言語モデル(LLM)上に構築された完全自律型AIアナリストは、同様の構造化された分析的多様性を安価かつ大規模に再現可能であることを示す。
アナリストペルソナやLSMの再割り当ては, 方法論的に不十分なランニングを除いた後でも, 結果の分布をシフトさせる。
- 参考スコア(独自算出の注目度): 22.927943525772857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The conclusions of empirical research depend not only on data but on a sequence of analytic decisions that published results seldom make explicit. Past ``many-analyst" studies have demonstrated this: independent teams testing the same hypothesis on the same dataset regularly reach conflicting conclusions. But such studies require months of coordination among dozens of research groups and are therefore rarely conducted. In this work, we show that fully autonomous AI analysts built on large language models (LLMs) can reproduce a similar structured analytic diversity cheaply and at scale. We task these AI analysts with testing a pre-specified hypothesis on a fixed dataset, varying the underlying model and prompt framing across replicate runs. Each AI analyst independently constructs and executes a full analysis pipeline; an AI auditor then screens each run for methodological validity. Across three datasets spanning experimental and observational designs, AI analyst-produced analyses display wide dispersion in effect sizes, $p$-values, and binary decisions on supporting the hypothesis or not, frequently reversing whether a hypothesis is judged supported. This dispersion is structured: recognizable analytic choices in preprocessing, model specification, and inference differ systematically across LLM and persona conditions. Critically, the effects are \emph{steerable}: reassigning the analyst persona or LLM shifts the distribution of outcomes even after excluding methodologically deficient runs.
- Abstract(参考訳): 実証研究の結論は、データだけでなく、結果を公表した分析的な決定の順序にも大きく依存する。
独立したチームが同じデータセットで同じ仮説をテストし、定期的に矛盾する結論に達しています。
しかし、このような研究には数十の研究グループ間の数ヶ月の調整が必要であり、そのため実施されることは稀である。
本研究では,大規模言語モデル(LLM)上に構築された完全自律型AIアナリストが,同様の構造的多様性を安価かつ大規模に再現可能であることを示す。
これらのAIアナリストは、固定データセット上で事前に特定された仮説をテストし、基礎となるモデルを変更し、複製の実行を迅速にフレーミングする。
各AIアナリストは独立して完全な分析パイプラインを構築し、実行します。
実験的な設計と観察的な設計にまたがる3つのデータセットで、AIアナリストが作成した分析では、仮説を支持するための効果サイズ、$p$-values、バイナリ決定が広く示され、仮説が支持されているかどうかを頻繁に逆転する。
事前処理における認識可能な解析的選択、モデル仕様、推論は、LLMとペルソナの条件によって体系的に異なる。
アナリストのペルソナやLSMを再割り当てすることは、方法論的に欠陥のある実行を除外しても結果の分布をシフトさせる。
関連論文リスト
- Exploring the Garden of Forking Paths in Empirical Software Engineering Research: A Multiverse Analysis [3.6324565773746147]
本論文は,いわゆる多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元多元
9つの重要な分析的決定を、少なくとも1つの等しく防御可能な代替手段で特定する。
圧倒的多数は質的に異なる結果をもたらし、時には反対の結果ももたらした。
論文 参考訳(メタデータ) (2025-12-09T18:47:00Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - BLADE: Benchmarking Language Model Agents for Data-Driven Science [21.682416167339635]
プランニング、メモリ、コード実行機能を備えたLMベースのエージェントは、データ駆動科学をサポートする可能性がある。
本稿では,エージェントの多面的アプローチを自動的に評価するベンチマークBLADEについて述べる。
論文 参考訳(メタデータ) (2024-08-19T02:59:35Z) - Can Large Language Models emulate an inductive Thematic Analysis of
semi-structured interviews? An exploration and provocation on the limits of
the approach and the model [0.0]
本稿では, GPT 3.5-Turboモデルを用いて, 帰納的テーマ解析のいくつかの側面をエミュレートした実験結果と考察を行った。
本論文の目的は, 定性解析における人間アナリストの代替ではなく, LLMデータ操作のいくつかの要素がある程度の定性研究を支援することができるかを知ることである。
論文 参考訳(メタデータ) (2023-05-22T13:16:07Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Stable Prediction via Leveraging Seed Variable [73.9770220107874]
従来の機械学習手法は、非因果変数によって誘導されるトレーニングデータにおいて、微妙に刺激的な相関を利用して予測する。
本研究では, 条件付き独立性テストに基づくアルゴリズムを提案し, 種子変数を先行変数とする因果変数を分離し, 安定な予測に採用する。
我々のアルゴリズムは、安定した予測のための最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-06-09T06:56:31Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。