論文の概要: A large dataset curation and benchmark for drug target interaction
- arxiv url: http://arxiv.org/abs/2401.17174v1
- Date: Tue, 30 Jan 2024 17:06:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:06:43.179258
- Title: A large dataset curation and benchmark for drug target interaction
- Title(参考訳): 薬物標的相互作用のための大規模データセットキュレーションとベンチマーク
- Authors: Alex Golts, Vadim Ratner, Yoel Shoshan, Moshe Raboh, Sagi Polaczek,
Michal Ozery-Flato, Daniel Shats, Liam Hazan, Sivan Ravid, Efrat Hexter
- Abstract要約: 生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
- 参考スコア(独自算出の注目度): 0.7699646945563469
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Bioactivity data plays a key role in drug discovery and repurposing. The
resource-demanding nature of \textit{in vitro} and \textit{in vivo}
experiments, as well as the recent advances in data-driven computational
biochemistry research, highlight the importance of \textit{in silico} drug
target interaction (DTI) prediction approaches. While numerous large public
bioactivity data sources exist, research in the field could benefit from better
standardization of existing data resources. At present, different research
works that share similar goals are often difficult to compare properly because
of different choices of data sources and train/validation/test split
strategies. Additionally, many works are based on small data subsets, leading
to results and insights of possible limited validity. In this paper we propose
a way to standardize and represent efficiently a very large dataset curated
from multiple public sources, split the data into train, validation and test
sets based on different meaningful strategies, and provide a concrete
evaluation protocol to accomplish a benchmark. We analyze the proposed data
curation, prove its usefulness and validate the proposed benchmark through
experimental studies based on an existing neural network model.
- Abstract(参考訳): 生物活性データは、薬物の発見と再生産において重要な役割を担っている。
データ駆動型バイオケミカル研究の最近の進歩とともに、 \textit{in vitro} および \textit{in vivo} 実験の資源需要特性は、薬物標的相互作用(DTI)予測アプローチの重要性を強調している。
多くの公共の生物活性データソースが存在するが、この分野の研究は既存のデータリソースのより良い標準化の恩恵を受ける可能性がある。
現在、同様の目標を共有する異なる研究成果は、データソースの選択やトレーニング/検証/テストの分割戦略が異なるため、適切に比較することが難しいことが多い。
さらに、多くの作業は小さなデータサブセットに基づいており、結果と潜在的に限定的な妥当性の洞察をもたらしている。
本稿では,複数の公開ソースから収集した非常に大きなデータセットの標準化と表現を効率的に行い,異なる意味のある戦略に基づいてデータをトレインに分割し,検証とテストを行う手法を提案し,ベンチマークを実現するための具体的な評価プロトコルを提供する。
提案するデータキュレーションを解析し,その有用性を証明し,既存のニューラルネットワークモデルに基づく実験により,提案ベンチマークを検証する。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Current Methods for Drug Property Prediction in the Real World [9.061842820405486]
薬物特性の予測は、高価な臨床試験の前に資産の破壊を可能にするために、薬物発見の鍵となる。
異なる論文が異なるデータセットやメソッドをベンチマークしているため、どの方法やアプローチが最も適しているかは、実践者にとって依然として不明である。
私たちの大規模な経験的研究は、さまざまなデータセットや手法に関する多くの初期の研究を結び付けています。
最良の方法はデータセットに依存しており、古典的なMLメソッドで構築された機能は、ディープラーニングよりも優れていることが分かりました。
論文 参考訳(メタデータ) (2023-07-25T17:50:05Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - DIVERSE: bayesian Data IntegratiVE learning for precise drug ResponSE
prediction [27.531532648298768]
DIVERSEは、細胞株、薬物、遺伝子相互作用のデータから薬物応答を予測するフレームワークです。
ステップ的な方法でデータソースを体系的に統合し、各追加データセットの重要性を順番に検証する。
3つの最先端のアプローチを含む他の5つの方法を明らかに上回る。
論文 参考訳(メタデータ) (2021-03-31T12:40:00Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。