論文の概要: InterFeat: An Automated Pipeline for Finding Interesting Hypotheses in Structured Biomedical Data
- arxiv url: http://arxiv.org/abs/2505.13534v1
- Date: Sun, 18 May 2025 13:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.376889
- Title: InterFeat: An Automated Pipeline for Finding Interesting Hypotheses in Structured Biomedical Data
- Title(参考訳): InterFeat: 構造化バイオメディカルデータから興味ある仮説を見つけるための自動化パイプライン
- Authors: Dan Ofer, Michal Linial, Dafna Shahaf,
- Abstract要約: 本稿では,構造化バイオメディカルデータにおける興味深い単純な仮説の発見を自動化するための積分パイプラインを提案する。
我々は「面白さ」を、新規性、実用性、妥当性の組み合わせとして定式化する。
パイプラインは、あらゆるターゲットに対して、"興味深い"運用という課題に対処します。
- 参考スコア(独自算出の注目度): 15.579204330470363
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Finding interesting phenomena is the core of scientific discovery, but it is a manual, ill-defined concept. We present an integrative pipeline for automating the discovery of interesting simple hypotheses (feature-target relations with effect direction and a potential underlying mechanism) in structured biomedical data. The pipeline combines machine learning, knowledge graphs, literature search and Large Language Models. We formalize "interestingness" as a combination of novelty, utility and plausibility. On 8 major diseases from the UK Biobank, our pipeline consistently recovers risk factors years before their appearance in the literature. 40--53% of our top candidates were validated as interesting, compared to 0--7% for a SHAP-based baseline. Overall, 28% of 109 candidates were interesting to medical experts. The pipeline addresses the challenge of operationalizing "interestingness" scalably and for any target. We release data and code: https://github.com/LinialLab/InterFeat
- Abstract(参考訳): 興味深い現象を見つけることは科学的発見の核心であるが、手動で不明確な概念である。
本稿では, 構造化バイオメディカルデータにおける興味深い単純な仮説(効果方向と潜在的基盤機構とのFeature-target関係)の発見を自動化する積分パイプラインを提案する。
このパイプラインは、機械学習、知識グラフ、文学検索、大規模言語モデルを組み合わせたものだ。
我々は「面白さ」を、新規性、実用性、妥当性の組み合わせとして定式化する。
英国バイオバンクの8つの主要な病気について、私たちのパイプラインは文献に現れる何年も前に、常にリスクファクターを回復します。
40~53%の候補が興味深く, SHAPベースラインは0--7%であった。
109名の候補者のうち28%は、医療専門家にとって興味深いものだった。
パイプラインは、あらゆるターゲットに対して、"興味深い"運用という課題に対処します。
https://github.com/LinialLab/InterFeat
関連論文リスト
- EvidenceBench: A Benchmark for Extracting Evidence from Biomedical Papers [6.016315914361666]
バイオメディカルペーパーにおける仮説に関連する証拠を自動的に発見する作業について検討する。
このタスクでモデルのパフォーマンスを測定するために、EvidenceBenchを導入します。
複数の人間-専門家のアノテーションを用いて,パイプラインの妥当性と精度を示す。
論文 参考訳(メタデータ) (2025-04-25T23:23:17Z) - BioKGBench: A Knowledge Graph Checking Benchmark of AI Agent for Biomedical Science [43.624608816218505]
BioKGBenchはAI駆動型バイオメディカルエージェントの評価ベンチマークである。
私たちはまず『Understanding Literature』を2つの原子能力に分解した。
次に、KGQAとドメインベースのRetrieval-Augmented Generationを用いて、KGCheckと呼ばれる新しいエージェントタスクを定式化する。
2つのアトミックなタスクに対して2万以上のデータを集め、225の高品質なアノテートされたデータをエージェントタスクに対して収集する。
論文 参考訳(メタデータ) (2024-06-29T15:23:28Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Machine Learning to Promote Translational Research: Predicting Patent
and Clinical Trial Inclusion in Dementia Research [0.0]
認知症は、2040年までに英国で6100万人に影響を及ぼし、年間25億ポンドの費用がかかると予想されている。
1990~2023年の間に、イギリスの認知症研究出版物43,091件からDmensionsデータベースを用いてデータを抽出した。
特許の予測では、受信者動作特性曲線(AUROC)の精度は0.84と77.17%であり、臨床試験の精度は0.81と75.11%である。
論文 参考訳(メタデータ) (2024-01-10T13:25:49Z) - Data-Driven Information Extraction and Enrichment of Molecular Profiling
Data for Cancer Cell Lines [1.1999555634662633]
本研究では,新しいデータ抽出・探索システムの設計,実装,応用について述べる。
我々は、ゲノムコピー番号の変種プロットと、ランク付けされた関連エンティティの自動リンクを可能にする、新しい公開データ探索ポータルを導入する。
私たちのシステムは、https://cancercelllines.org.comで公開されています。
論文 参考訳(メタデータ) (2023-07-03T11:15:42Z) - SciMON: Scientific Inspiration Machines Optimized for Novelty [68.46036589035539]
文献に基づく新たな科学的方向を生成するために,ニューラルランゲージモデルを探索し,拡張する。
モデルが入力背景コンテキストとして使用される新しい設定で、劇的な出発をとっています。
本稿では,過去の科学的論文から「吸入」を抽出するモデリングフレームワークであるSciMONを紹介する。
論文 参考訳(メタデータ) (2023-05-23T17:12:08Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。