論文の概要: Make Literature-Based Discovery Great Again through Reproducible Pipelines
- arxiv url: http://arxiv.org/abs/2502.16450v1
- Date: Sun, 23 Feb 2025 05:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:30.436086
- Title: Make Literature-Based Discovery Great Again through Reproducible Pipelines
- Title(参考訳): 再現可能なパイプラインによる文学に基づく発見
- Authors: Bojan Cestnik, Andrej Kastrin, Boshko Koloski, Nada Lavrač,
- Abstract要約: 本研究の主な新規性は、二元的LBD過程の過程を描写したJupyter Notebooksのコレクションである。
ベンチマークデータセットのオープンアクセス、コードの再利用、実行可能なDockerレシピを通じて、LBDのハンズオンエクスペリエンスの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 1.5602870473232306
- License:
- Abstract: By connecting disparate sources of scientific literature, literature\-/based discovery (LBD) methods help to uncover new knowledge and generate new research hypotheses that cannot be found from domain-specific documents alone. Our work focuses on bisociative LBD methods that combine bisociative reasoning with LBD techniques. The paper presents LBD through the lens of reproducible science to ensure the reproducibility of LBD experiments, overcome the inconsistent use of benchmark datasets and methods, trigger collaboration, and advance the LBD field toward more robust and impactful scientific discoveries. The main novelty of this study is a collection of Jupyter Notebooks that illustrate the steps of the bisociative LBD process, including data acquisition, text preprocessing, hypothesis formulation, and evaluation. The contributed notebooks implement a selection of traditional LBD approaches, as well as our own ensemble-based, outlier-based, and link prediction-based approaches. The reader can benefit from hands-on experience with LBD through open access to benchmark datasets, code reuse, and a ready-to-run Docker recipe that ensures reproducibility of the selected LBD methods.
- Abstract(参考訳): 異なる科学文献のソースを繋ぐことで、文献に基づく発見(LBD)法は、新しい知識を発見し、ドメイン固有の文書だけでは見つからない新しい研究仮説を生成するのに役立つ。
本研究は, 解答的推論とLBD手法を併用した解答的LBD法に焦点を当てた。
本稿では、再現可能な科学のレンズを通してLBD実験の再現性を確保し、ベンチマークデータセットとメソッドの一貫性のない使用を克服し、コラボレーションをトリガーし、より堅牢でインパクトのある科学的発見に向けてLBD分野を前進させる。
本研究の主な新規性は、データ取得、テキスト前処理、仮説定式化、評価を含む、二元的LBDプロセスのステップを記述したJupyter Notebooksのコレクションである。
コントリビュートノートは、従来のLBDアプローチと、私たち独自のアンサンブルベースの、外れ値ベースの、リンク予測ベースのアプローチを実装しています。
ベンチマークデータセットのオープンアクセス、コードの再利用、選択したLBDメソッドの再現性を保証するDockerレシピを通じて、LBDのハンズオンエクスペリエンスの恩恵を受けることができる。
関連論文リスト
- Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs [0.9576327614980397]
本研究では, 大規模NLPデータセットの効率的な復号化手法について検討した。
以上の結果から,異なる手法で観察された意味的類似性に基づく重複の頻度が低い可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-02T00:43:10Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - A Survey on Data Selection for Language Models [148.300726396877]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - A Reliable Knowledge Processing Framework for Combustion Science using
Foundation Models [0.0]
この研究は、多様な燃焼研究データを処理し、実験研究、シミュレーション、文献にまたがるアプローチを導入している。
開発されたアプローチは、データのプライバシと精度を最適化しながら、計算と経済の費用を最小化する。
このフレームワークは、最小限の人間の監視で、常に正確なドメイン固有の応答を提供する。
論文 参考訳(メタデータ) (2023-12-31T17:15:25Z) - Literature Based Discovery (LBD): Towards Hypothesis Generation and
Knowledge Discovery in Biomedical Text Mining [0.0]
文学に基づく発見(英語: Literature Based Discovery, LBD)は、医学用語間の新しい関連を自動的に発見する過程である。
このプロセスは、疾患や症状などの医学用語の概念プロファイルを作成し、それを薬物や治療と結びつけることに焦点を当てている。
このレビューでは、トランスフォーマーモデルとニューラルネットワークに基づくLBDモデルの役割をレビューすることで、LBDのディープラーニング応用についても論じる。
論文 参考訳(メタデータ) (2023-10-04T02:13:11Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models [0.0]
本稿では,知識追跡のためのモデル拡張ライブラリpyBKTを紹介する。
このライブラリはデータ生成、フィッティング、予測、クロスバリデーションルーチンを提供する。
pybktはオープンソースであり、研究や実践のコミュニティに知識の追跡をよりアクセスしやすくするためのオープンライセンスである。
論文 参考訳(メタデータ) (2021-05-02T03:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。