論文の概要: Literature Meets Data: A Synergistic Approach to Hypothesis Generation
- arxiv url: http://arxiv.org/abs/2410.17309v1
- Date: Tue, 22 Oct 2024 18:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:42.529205
- Title: Literature Meets Data: A Synergistic Approach to Hypothesis Generation
- Title(参考訳): 論文とデータ:仮説生成への相乗的アプローチ
- Authors: Haokun Liu, Yangqiaoyu Zhou, Mingxuan Li, Chenfei Yuan, Chenhao Tan,
- Abstract要約: 本研究では,文献に基づく洞察とデータを組み合わせて仮説生成を行う手法を開発した。
また,人間の意思決定を支援するためのLLM生成仮説の有用性を評価するための最初の人的評価を行った。
- 参考スコア(独自算出の注目度): 24.98928229927995
- License:
- Abstract: AI holds promise for transforming scientific processes, including hypothesis generation. Prior work on hypothesis generation can be broadly categorized into theory-driven and data-driven approaches. While both have proven effective in generating novel and plausible hypotheses, it remains an open question whether they can complement each other. To address this, we develop the first method that combines literature-based insights with data to perform LLM-powered hypothesis generation. We apply our method on five different datasets and demonstrate that integrating literature and data outperforms other baselines (8.97\% over few-shot, 15.75\% over literature-based alone, and 3.37\% over data-driven alone). Additionally, we conduct the first human evaluation to assess the utility of LLM-generated hypotheses in assisting human decision-making on two challenging tasks: deception detection and AI generated content detection. Our results show that human accuracy improves significantly by 7.44\% and 14.19\% on these tasks, respectively. These findings suggest that integrating literature-based and data-driven approaches provides a comprehensive and nuanced framework for hypothesis generation and could open new avenues for scientific inquiry.
- Abstract(参考訳): AIは仮説生成を含む科学プロセスの変革を約束する。
仮説生成に関する以前の研究は、理論駆動とデータ駆動のアプローチに大きく分類することができる。
どちらも新しい仮説ともっともらしい仮説を創出するのに有効であることが証明されているが、両者が相互に補完できるかどうかには疑問が残る。
そこで本研究では,文献に基づく洞察とデータを組み合わせてLLMを用いた仮説生成を行う手法を開発した。
我々は,本手法を5つの異なるデータセットに適用し,文献とデータの統合が他のベースラインより優れていることを示す(数ショットで8.97\%,文学ベースで15.75\%,データ駆動で3.37\%)。
さらに,人間の意思決定を支援するためのLLM生成仮説の有用性を評価するために,初となる人間による評価を行った。
以上の結果から, 作業の精度は, それぞれ7.44 %, 14.19 %向上していることがわかった。
これらの結果は、文献に基づくアプローチとデータ駆動アプローチを統合することで、仮説生成のための包括的でニュアンスのあるフレームワークが提供され、科学的調査のための新たな道を開くことを示唆している。
関連論文リスト
- Large Language Models as Biomedical Hypothesis Generators: A Comprehensive Evaluation [15.495976478018264]
大規模言語モデル(LLM)は、知識相互作用に革命をもたらす有望なツールとして登場した。
バイオメディカル文献から背景と仮説のペアのデータセットを構築し、トレーニング、観察、および見えないテストセットに分割する。
最上位モデルの仮説生成能力を、ゼロショット、少数ショット、微調整設定で評価する。
論文 参考訳(メタデータ) (2024-07-12T02:55:13Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Autonomous LLM-driven research from data to human-verifiable research papers [0.0]
完全なステップワイズプロセスを通じてインタラクションをガイドする自動化プラットフォームを構築しています。
注釈付きデータのみを提供するモードでは、データペーパーは仮説を立て、計画を立て、分析コードを書き、解釈し、結果を生成し、解釈した。
我々は、トレーサビリティ、透明性、妥当性を高めながら、AIによる科学的発見の加速の可能性を示す。
論文 参考訳(メタデータ) (2024-04-24T23:15:49Z) - Hypothesis Generation with Large Language Models [28.73562677221476]
データに基づく仮説生成(ラベル付き例)に焦点を当てる。
マルチアームの盗賊にインスパイアされた我々は、更新プロセスにおけるエクスプロイト探索のトレードオフを通知する報酬関数を設計する。
我々のアルゴリズムは、分類タスクにおいて、数発のプロンプトよりもずっと優れた予測性能を実現する仮説を生成することができる。
論文 参考訳(メタデータ) (2024-04-05T18:00:07Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z) - Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [50.40483334131271]
本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案する。
従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。
パフォーマンス向上のための3つのフィードバック機構を含む,タスクのためのマルチモジュールフレームワークが開発されている。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Natural Language Inference with Self-Attention for Veracity Assessment
of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。
そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-05T12:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。