論文の概要: Automated Hypothesis Validation with Agentic Sequential Falsifications
- arxiv url: http://arxiv.org/abs/2502.09858v1
- Date: Fri, 14 Feb 2025 01:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:40.603177
- Title: Automated Hypothesis Validation with Agentic Sequential Falsifications
- Title(参考訳): エージェント・シークエンシャル・ファルシフィケーションを用いた自動仮説検証
- Authors: Kexin Huang, Ying Jin, Ryan Li, Michael Y. Li, Emmanuel Candès, Jure Leskovec,
- Abstract要約: 多くの実世界の仮説は抽象的で、直接の検証が難しいハイレベルな主張である。
本稿では,自由形式仮説の厳密な自動検証のためのエージェントフレームワークであるPopperを提案する。
- 参考スコア(独自算出の注目度): 45.572893831500686
- License:
- Abstract: Hypotheses are central to information acquisition, decision-making, and discovery. However, many real-world hypotheses are abstract, high-level statements that are difficult to validate directly. This challenge is further intensified by the rise of hypothesis generation from Large Language Models (LLMs), which are prone to hallucination and produce hypotheses in volumes that make manual validation impractical. Here we propose Popper, an agentic framework for rigorous automated validation of free-form hypotheses. Guided by Karl Popper's principle of falsification, Popper validates a hypothesis using LLM agents that design and execute falsification experiments targeting its measurable implications. A novel sequential testing framework ensures strict Type-I error control while actively gathering evidence from diverse observations, whether drawn from existing data or newly conducted procedures. We demonstrate Popper on six domains including biology, economics, and sociology. Popper delivers robust error control, high power, and scalability. Furthermore, compared to human scientists, Popper achieved comparable performance in validating complex biological hypotheses while reducing time by 10 folds, providing a scalable, rigorous solution for hypothesis validation.
- Abstract(参考訳): 仮説は情報取得、意思決定、発見の中心である。
しかし、現実世界の仮説の多くは抽象的で、直接の検証が難しいハイレベルな主張である。
この課題は、幻覚を起こしやすい大規模言語モデル(LLM)からの仮説生成の台頭と、手動による検証を非現実的にするボリュームの仮説の生成によってさらに強化される。
本稿では,自由形式仮説の厳密な自動検証のためのエージェントフレームワークであるPopperを提案する。
カール・ポッパーのファルシフィケーション原理に導かれて、ポパーはその測定可能な含意をターゲットとしたファルシフィケーション実験を設計し実行するためのLSMエージェントを用いた仮説を検証する。
新たなシーケンシャルテストフレームワークは、既存のデータから引き出されたり、新しく実行された手順で、さまざまな観測から証拠を積極的に収集しながら、厳密なType-Iエラー制御を保証する。
生物学、経済学、社会学を含む6つの領域でPopperを実証する。
Popperは堅牢なエラー制御、高出力、スケーラビリティを提供する。
さらに、人間科学者と比較すると、Popperは複雑な生物学的仮説を検証し、10倍の時間を短縮し、仮説検証のためのスケーラブルで厳密なソリューションを提供する上で、同等のパフォーマンスを達成した。
関連論文リスト
- Resolving Multiple-Dynamic Model Uncertainty in Hypothesis-Driven Belief-MDPs [4.956709222278243]
複数の仮説に対する推論を可能にする仮説駆動の信念 MDP を提案する。
また,(ほぼ)正しい仮説を確定し,基礎となるPOMDPで良好に機能するという目標をバランスづける新たな信念であるMDPを提案する。
論文 参考訳(メタデータ) (2024-11-21T18:36:19Z) - FactTest: Factuality Testing in Large Language Models with Finite-Sample and Distribution-Free Guarantees [41.78390564658645]
幻覚や非現実的コンテンツを生成するための大規模言語モデル(LLM)は、高い領域での信頼性を損なう。
FactTest は LLM が与えられた質問に対する正しい回答を確実に提供できるかどうかを統計的に評価する新しいフレームワークである。
本研究では,FactTestが幻覚を効果的に検出し,未知の疑問に答えることを禁じるモデルの能力を向上させることにより,40%以上の精度向上を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-04T20:53:04Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Max-Rank: Efficient Multiple Testing for Conformal Prediction [43.56898111853698]
多重仮説テスト(MHT)は、ゲノミクスから心理学まで、様々な科学分野において一般的に発生し、多くの仮説のテストが同時にタイプIエラーのリスクを増大させる。
本稿では,これらの依存関係を有効活用する新たな補正法であるtextttmax-rank$を提案する。
論文 参考訳(メタデータ) (2023-11-17T22:44:22Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Reconstructing Graph Diffusion History from a Single Snapshot [87.20550495678907]
A single SnapsHot (DASH) から拡散履歴を再構築するための新しいバリセンターの定式化を提案する。
本研究では,拡散パラメータ推定のNP硬度により,拡散パラメータの推定誤差が避けられないことを証明する。
また、DITTO(Diffusion hitting Times with Optimal proposal)という効果的な解法も開発している。
論文 参考訳(メタデータ) (2023-06-01T09:39:32Z) - Generating Scientific Claims for Zero-Shot Scientific Fact Checking [54.62086027306609]
科学言語の複雑さと大量のトレーニングデータが不足しているため、自動科学的事実チェックは困難である。
科学的な文から1つ以上の原子的かつ検証可能なクレームを生成するための科学的クレーム生成を提案する。
また, バイオメディカルクレームのゼロショット事実チェックにも有用であることを示す。
論文 参考訳(メタデータ) (2022-03-24T11:29:20Z) - Learning Logic Programs From Noisy Failures [0.0]
本稿では,以前に導入した障害学習(LFF)アプローチのノイズハンドリングである,障害アプローチからILPへの緩和学習を紹介する。
また、この緩和されたアプローチを実装し、既存のPopperシステムの変更である、新しいノイズポッパーLPシステムについても紹介する。
論文 参考訳(メタデータ) (2021-12-28T16:48:00Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。