論文の概要: HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation
- arxiv url: http://arxiv.org/abs/2504.11524v1
- Date: Tue, 15 Apr 2025 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:40:58.577931
- Title: HypoBench: Towards Systematic and Principled Benchmarking for Hypothesis Generation
- Title(参考訳): hypoBench:仮説生成のための体系的で原則的なベンチマークを目指して
- Authors: Haokun Liu, Sicong Huang, Jingyu Hu, Yangqiaoyu Zhou, Chenhao Tan,
- Abstract要約: 仮説生成手法を複数の側面にわたって評価するための新しいベンチマークである hypoBench を紹介する。
既存の6つの仮説生成手法と組み合わせた4つの最先端LCMの評価を行った。
結果は、現在の仮説生成手法がすべての関連するパターンや意味のあるパターンを完全には明らかにしていないため、改善の余地がまだ大きいことを示している。
- 参考スコア(独自算出の注目度): 24.656083479331645
- License:
- Abstract: There is growing interest in hypothesis generation with large language models (LLMs). However, fundamental questions remain: what makes a good hypothesis, and how can we systematically evaluate methods for hypothesis generation? To address this, we introduce HypoBench, a novel benchmark designed to evaluate LLMs and hypothesis generation methods across multiple aspects, including practical utility, generalizability, and hypothesis discovery rate. HypoBench includes 7 real-world tasks and 5 synthetic tasks with 194 distinct datasets. We evaluate four state-of-the-art LLMs combined with six existing hypothesis-generation methods. Overall, our results suggest that existing methods are capable of discovering valid and novel patterns in the data. However, the results from synthetic datasets indicate that there is still significant room for improvement, as current hypothesis generation methods do not fully uncover all relevant or meaningful patterns. Specifically, in synthetic settings, as task difficulty increases, performance significantly drops, with best models and methods only recovering 38.8% of the ground-truth hypotheses. These findings highlight challenges in hypothesis generation and demonstrate that HypoBench serves as a valuable resource for improving AI systems designed to assist scientific discovery.
- Abstract(参考訳): 大規模な言語モデル(LLM)による仮説生成への関心が高まっている。
しかし、基本的な疑問は、何が良い仮説を作るのか、どのようにして仮説生成の手法を体系的に評価できるか、である。
そこで本研究では,実用性,一般化可能性,仮説発見率など,多面にわたるLCMと仮説生成手法の評価を目的とした新しいベンチマークであるHypoBenchを紹介する。
hypoBenchには7つの現実世界タスクと5つの合成タスクと194の異なるデータセットが含まれている。
既存の6つの仮説生成手法と組み合わせた4つの最先端LCMの評価を行った。
以上の結果から,既存の手法がデータ中の有効かつ新しいパターンを発見できる可能性が示唆された。
しかし, 合成データセットの結果から, 現在の仮説生成法では, 関連するパターンや意味のあるパターンが完全には明らかになっていないため, 改善の余地がまだ大きいことが示唆された。
特に、合成環境では、タスクの難易度が増大するにつれてパフォーマンスが著しく低下し、最良のモデルと手法は、地道仮説の38.8%しか回復しない。
これらの発見は仮説生成における課題を強調し、仮説ベンチが科学的発見を支援するように設計されたAIシステムを改善するための貴重な資源であることを示した。
関連論文リスト
- Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Literature Meets Data: A Synergistic Approach to Hypothesis Generation [24.98928229927995]
本研究では,文献に基づく洞察とデータを組み合わせて仮説生成を行う手法を開発した。
また,人間の意思決定を支援するためのLLM生成仮説の有用性を評価するための最初の人的評価を行った。
論文 参考訳(メタデータ) (2024-10-22T18:00:00Z) - Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。
原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。
また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Hypothesis Generation with Large Language Models [28.73562677221476]
データに基づく仮説生成(ラベル付き例)に焦点を当てる。
マルチアームの盗賊にインスパイアされた我々は、更新プロセスにおけるエクスプロイト探索のトレードオフを通知する報酬関数を設計する。
我々のアルゴリズムは、分類タスクにおいて、数発のプロンプトよりもずっと優れた予測性能を実現する仮説を生成することができる。
論文 参考訳(メタデータ) (2024-04-05T18:00:07Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Exploring Lexical Irregularities in Hypothesis-Only Models of Natural
Language Inference [5.283529004179579]
自然言語推論(NLI)またはテキスト関連認識(RTE)は、文のペア間の関係を予測するタスクです。
包含を理解するモデルは前提と仮説の両方をエンコードするべきである。
Poliakらによる実験。
仮説でのみ観察されたパターンに対するこれらのモデルの強い好みを明らかにした。
論文 参考訳(メタデータ) (2021-01-19T01:08:06Z) - L2R2: Leveraging Ranking for Abductive Reasoning [65.40375542988416]
学習システムの帰納的推論能力を評価するために,帰納的自然言語推論タスク(alpha$NLI)を提案する。
新たな$L2R2$アプローチは、Learning-to-rankフレームワークの下で提案されている。
ARTデータセットの実験は、公開リーダボードの最先端に到達します。
論文 参考訳(メタデータ) (2020-05-22T15:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。