論文の概要: Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications
- arxiv url: http://arxiv.org/abs/2409.15076v1
- Date: Mon, 23 Sep 2024 14:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:44:12.204163
- Title: Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications
- Title(参考訳): 検索情報を利用したバイオコンピュートオブジェクトの自動生成による科学的再現性向上
- Authors: Sean Kim, Raja Mazumder,
- Abstract要約: IEEE Biocompute Object(BCO)標準は、ニーズに対処するが、準拠するドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,Large Language Models(LLM)とRAG(Retrieval-Augmented Generation)を用いた科学論文からのBCOの自動生成手法を提案する。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth in computational power and accessibility has transformed the complexity and scale of bioinformatics research, necessitating standardized documentation for transparency, reproducibility, and regulatory compliance. The IEEE BioCompute Object (BCO) standard addresses this need but faces adoption challenges due to the overhead of creating compliant documentation, especially for legacy research. This paper presents a novel approach to automate the creation of BCOs from scientific papers using Retrieval-Augmented Generation (RAG) and Large Language Models (LLMs). We describe the development of the BCO assistant tool that leverages RAG to extract relevant information from source papers and associated code repositories, addressing key challenges such as LLM hallucination and long-context understanding. The implementation incorporates optimized retrieval processes, including a two-pass retrieval with re-ranking, and employs carefully engineered prompts for each BCO domain. We discuss the tool's architecture, extensibility, and evaluation methods, including automated and manual assessment approaches. The BCO assistant demonstrates the potential to significantly reduce the time and effort required for retroactive documentation of bioinformatics research while maintaining compliance with the standard. This approach opens avenues for AI-assisted scientific documentation and knowledge extraction from publications thereby enhancing scientific reproducibility. The BCO assistant tool and documentation is available at https://biocompute-objects.github.io/bco-rag/.
- Abstract(参考訳): 計算力とアクセシビリティの指数関数的な成長は、バイオインフォマティクス研究の複雑さと規模を変え、透明性、再現性、規制の遵守のために標準化された文書を必要とする。
IEEE BioCompute Object(BCO)標準は、このニーズに対処するが、特にレガシー研究において、準拠のドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,学術論文からBCOを自動生成する手法として,検索言語生成(RAG)とLarge Language Models(LLM)を提案する。
本稿では,RAGを利用してソースコードや関連コードリポジトリから関連情報を抽出し,LLM幻覚や長文理解といった重要な課題に対処するBCOアシスタントツールの開発について述べる。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
本稿では,ツールのアーキテクチャ,拡張性,評価手法について論じる。
BCOアシスタントは、標準に準拠しつつ、バイオインフォマティクス研究の遡及的な資料作成に必要な時間と労力を大幅に削減する可能性を実証している。
このアプローチは、AIによる科学文書と出版物からの知識抽出の道を開き、科学的再現性を高める。
BCOアシスタントツールとドキュメントはhttps://biocompute-objects.github.io/bco-rag/で公開されている。
関連論文リスト
- NeuroSym-BioCAT: Leveraging Neuro-Symbolic Methods for Biomedical Scholarly Document Categorization and Question Answering [0.14999444543328289]
本稿では,最適化されたトピックモデリングフレームワークであるOVB-LDAとBI-POP CMA-ES最適化技術を統合し,学術文書の抽象分類を強化した新しい手法を提案する。
我々は、ドメイン固有データに基づいて微調整された蒸留MiniLMモデルを用いて、高精度な回答抽出を行う。
論文 参考訳(メタデータ) (2024-10-29T14:45:12Z) - Developing Retrieval Augmented Generation (RAG) based LLM Systems from PDFs: An Experience Report [3.4632900249241874]
本稿では,PDF文書を主データ源とする検索拡張生成システム(RAG)の開発経験報告について述べる。
RAGアーキテクチャは、Large Language Models (LLM) の生成能力と情報検索の精度を組み合わせたものである。
この研究の実際的な意味は、様々な分野における生成AIシステムの信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-21T12:21:49Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SeRTS: Self-Rewarding Tree Search for Biomedical Retrieval-Augmented Generation [50.26966969163348]
大規模言語モデル(LLM)は,検索増強世代(RAG)の進展に伴い,生物医学領域において大きな可能性を示した。
既存の検索強化アプローチは、様々なクエリやドキュメント、特に医療知識クエリに対処する上で、課題に直面している。
モンテカルロ木探索(MCTS)と自己回帰パラダイムに基づく自己回帰木探索(SeRTS)を提案する。
論文 参考訳(メタデータ) (2024-06-17T06:48:31Z) - Automated Extraction and Maturity Analysis of Open Source Clinical Informatics Repositories from Scientific Literature [0.0]
本研究では、arXivにインデックスされた学術論文からGitHubリポジトリURLを体系的に抽出することにより、ギャップを埋める自動化手法を提案する。
当社のアプローチでは、関連論文に対するarXiv APIのクエリ、抽出したGitHub URLのクリーニング、GitHub APIによる包括的なリポジトリ情報の取得、スター、フォーク、オープンイシュー、コントリビュータなどの定義されたメトリクスに基づいてリポジトリの成熟度を分析しています。
論文 参考訳(メタデータ) (2024-03-20T17:06:51Z) - RepoAgent: An LLM-Powered Open-Source Framework for Repository-level
Code Documentation Generation [79.83270415843857]
コードドキュメンテーションを積極的に生成、保守、更新することを目的とした、大規模な言語モデルによるオープンソースフレームワークであるRepoAgentを紹介します。
RepoAgentは高品質なリポジトリレベルのドキュメントを生成するのに優れています。
論文 参考訳(メタデータ) (2024-02-26T15:39:52Z) - Improving Medical Reasoning through Retrieval and Self-Reflection with Retrieval-Augmented Large Language Models [18.984165679347026]
Self-BioRAGは、説明文の生成、ドメイン固有の文書の検索、生成したレスポンスの自己参照を専門とする、バイオメディカルテキストに信頼できるフレームワークである。
84kのバイオメディカル・インストラクション・セットを用いて、カスタマイズされた反射トークンで生成された説明を評価できるセルフビオRAGを訓練する。
論文 参考訳(メタデータ) (2024-01-27T02:29:42Z) - A Study on Training and Developing Large Language Models for Behavior
Tree Generation [22.632022793663516]
本稿では,大規模言語モデル(LLM)の適用可能性について,革新的な考察を行う。
本論文の中核となる貢献は,LLMに基づくBT生成フレームワークの設計である。
生成したBTの有効性と実行性を確保するため,データ検証の重要性を強調した。
論文 参考訳(メタデータ) (2024-01-16T03:28:29Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。