論文の概要: HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination
- arxiv url: http://arxiv.org/abs/2510.15614v1
- Date: Fri, 17 Oct 2025 13:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.626753
- Title: HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination
- Title(参考訳): hypoSpace: LLMクリエイティビティを減弱条件下でのセット値仮説生成器として評価する
- Authors: Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Yew-Soon Ong, Anirudh Goyal, Dianbo Liu,
- Abstract要約: 有限仮説集合のサンプルとして LLM を扱う診断スイートである hypoSpace を紹介する。
我々は、決定論的検証器と正確に列挙された仮説空間を持つ3つの構造化された領域において、HypoSpaceをインスタンス化する。
命令調整と推論に焦点を当てたモデル全体では、検証性はしばしば高く保たれ、ユニキネスとリカバリは許容空間が大きくなるにつれて劣化する。
- 参考スコア(独自算出の注目度): 46.896452542901805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models are increasingly used in scientific workflows, evaluating their ability to propose sets of explanations-not just a single correct answer-becomes critical. Many scientific problems are underdetermined: multiple, mechanistically distinct hypotheses are consistent with the same observations. We introduce HypoSpace, a diagnostic suite that treats LLMs as samplers of finite hypothesis sets and measures three complementary indicators: Validity (precision of proposals consistent with observations), Uniqueness (non-redundancy among proposals), and Recovery (coverage of the enumerated admissible set). We instantiate HypoSpace in three structured domains with deterministic validators and exactly enumerated hypothesis spaces: (i) causal graphs from perturbations, (ii) gravity-constrained 3D voxel reconstruction from top-down projections, and (iii) Boolean genetic interactions. Across instruction-tuned and reasoning-focused models, Validity often remains high while Uniqueness and Recovery degrade as the admissible space grows, revealing mode collapse that is invisible to correctness-only metrics. HypoSpace offers a controlled probe-rather than a leaderboard-for methods that explicitly explore and cover admissible explanation spaces. Code is available at: https://github.com/CTT-Pavilion/_HypoSpace.
- Abstract(参考訳): 言語モデルが科学的なワークフローでますます使われるようになるにつれて、説明のセットを提案する能力が評価される。
多くの科学的問題は未決定であり、複数の機械学的に異なる仮説は同じ観測と一致している。
有限仮説集合のサンプルとしてLLMを扱える診断スイートである hypoSpace を導入し、3つの相補的な指標を測る: 妥当性(観測と一致した提案の精度)、特異性(提案間の非冗長性)、回復性(列挙された許容集合のカバレッジ)。
我々は、決定論的検証器と正確に列挙された仮説空間を持つ3つの構造化された領域において、HypoSpaceをインスタンス化する。
(i)摂動の因果グラフ
(II)上下射影からの重力拘束型3次元ボクセル再構成
(3)ブール遺伝子相互作用
命令調整と推論に焦点をあてたモデル全体では、検証性はしばしば高く保たれ、ユニキネスとリカバリは許容空間が大きくなるにつれて劣化し、修正性のみのメトリクスには見えないモード崩壊が明らかになる。
hypoSpaceは、許容可能な説明空間を明示的に探索しカバーするリーダーボードではなく、制御されたプローブを提供する。
コードは、https://github.com/CTT-Pavilion/_HypoSpace.comで入手できる。
関連論文リスト
- Towards Inference-time Scaling for Continuous Space Reasoning [55.40260529506702]
推論時間スケーリングは、大規模言語モデルにおけるテキストベースの推論に有効であることが証明されている。
本稿では,そのような確立された手法が連続空間における推論にうまく適応できるかどうかを考察する。
本研究では,ドロップアウト型サンプリングによる多種多様な推論経路の実現可能性を示す。
論文 参考訳(メタデータ) (2025-10-14T05:53:41Z) - Controllable Logical Hypothesis Generation for Abductive Reasoning in Knowledge Graphs [54.596180382762036]
知識グラフの帰納的推論は、観測された実体からもっともらしい論理的仮説を生成することを目的としている。
可制御性の欠如により、単一の観測は、多くの妥当だが冗長あるいは無関係な仮説をもたらす可能性がある。
帰納的推論の実用性を改善するために,制御可能な仮説生成タスクを導入する。
論文 参考訳(メタデータ) (2025-05-27T09:36:47Z) - Automated Hypothesis Validation with Agentic Sequential Falsifications [45.572893831500686]
多くの実世界の仮説は抽象的で、直接の検証が難しいハイレベルな主張である。
本稿では,自由形式仮説の厳密な自動検証のためのエージェントフレームワークであるPopperを提案する。
論文 参考訳(メタデータ) (2025-02-14T01:46:00Z) - Simultaneous inference for generalized linear models with unmeasured confounders [0.0]
本稿では,構造を利用して線形射影を3つの重要な段階に統合する,統一的な統計的推定と推測の枠組みを提案する。
サンプルおよび応答サイズとして$z$-testsの効果的なType-Iエラー制御が無限大に近づくことを示す。
論文 参考訳(メタデータ) (2023-09-13T18:53:11Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Diverse, Global and Amortised Counterfactual Explanations for
Uncertainty Estimates [31.241489953967694]
このような集合の多様性を研究し、多くの CLUE が冗長であることを示す。
そこで我々は,不確実な入力の特定のグループに対する償却写像を学習する,GLobal AMortized CLUE (GLAM-CLUE) を提案する。
実験の結果,$delta$-CLUE,$nabla$-CLUE,およびGLAM-CLUEはすべて,CLUEの欠点に対処し,不確実性推定を実践者に有益に説明できることを示した。
論文 参考訳(メタデータ) (2021-12-05T18:27:21Z) - Asymptotic relative submajorization of multiple-state boxes [0.0]
状態ペア(Pairs of state)は、非対称微分可能性(Wang and Wilde, 2019)の資源理論の基本的な対象であり、自由操作はどちらの状態にも適用される任意の量子チャネルである。
一定数の有限状態のボックスを考察し、そのような対象に対する相対的な部分整合の事前順序の拡張について検討する。
この事前順序は、単純な代替仮説に対して合成ヌル仮説をテストする場合のエラー確率と、状態判別におけるある種のエラー確率を特徴づける。
論文 参考訳(メタデータ) (2020-07-22T08:29:52Z) - Empirically Verifying Hypotheses Using Reinforcement Learning [58.09414653169534]
本稿では,仮説検証をRL問題として定式化する。
我々は、世界の力学に関する仮説を前提として、仮説が真か偽かを予測するのに役立つ観測結果を生成することができるエージェントを構築することを目指している。
論文 参考訳(メタデータ) (2020-06-29T01:01:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。