論文の概要: RCSB PDB AI Help Desk: retrieval-augmented generation for protein structure deposition support
- arxiv url: http://arxiv.org/abs/2604.22800v1
- Date: Mon, 13 Apr 2026 18:36:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.192059
- Title: RCSB PDB AI Help Desk: retrieval-augmented generation for protein structure deposition support
- Title(参考訳): RCSB PDB AI Help Desk: タンパク質構造沈着支援のための検索強化生成
- Authors: Vivek Reddy Chithari, Jasmine Y. Young, Irina Persikova, Yuhe Liang, Gregg V. Crichlow, Justin W. Flatt, Sutapa Ghosh, Brian P. Hudson, Ezra Peisach, Monica Sekharan, Chenghua Shao, Stephen K. Burley,
- Abstract要約: 我々はLangChain上に構築された検索型拡張生成(RAG)を用いたAIによるヘルプデスクを開発した。
約1時間程度の預金者支援と、引用に支えられたストリーミング応答を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: Structural Biologists have contributed more than 245,000 experimentally determined three-dimensional structures of biological macromolecules to the Protein Data Bank (PDB). Incoming data are validated and biocurated by ~20 expert biocurators across the wwPDB. RCSB PDB biocurators who process more than 40% of global depositions face increasing challenges in maintaining efficient Help Desk operations, with approximately 19,000 messages in approximately 8,000 entries received from depositors in 2025. Results: We developed an AI-powered Help Desk using Retrieval-Augmented Generation (RAG) built on LangChain with a pgvector store (PostgreSQL) and GPT-4.1-mini. The system employs pymupdf4llm for Markdown-preserving PDF extraction, two-stage document chunking, Maximal Marginal Relevance retrieval, a topical guardrail that filters off-topic queries, and a specialized system prompt that prevents exposure of internal terminology. A dual-LLM architecture uses separate model configurations for question condensing and response generation. Deployed in production on Kubernetes with PostgreSQL (pgvector), it provides around-the-clock depositor assistance with citation-backed, streaming responses. Availability and implementation: Freely available at https://rcsb-deposit-help.rcsb.org.
- Abstract(参考訳): 動機: 構造生物学者は、実験的に決定された生体高分子の3次元構造をタンパク質データバンク(PDB)に寄贈した。
来るべきデータは、wwPDB全体で約20のエキスパートバイオキュレーターによって検証され、バイオキュレーションされる。
グローバル預金の40%以上を処理しているRCSB PDBバイオキュレータは、ヘルプデスクの効率的な運用を維持する上で、2025年に約19,000件のメッセージが預金者から受け取った。
結果:我々はLangChain上に構築されたpgvector Store(PostgreSQL)とGPT-4.1-miniを用いたAIを利用したHelp Deskを開発した。
このシステムは、マークダウン保存PDF抽出のためのpymupdf4llm、二段階文書チャンキング、最大マージナル関連検索、トピックガードレール、および内部用語の露出を防止する特別なシステムプロンプトを使用している。
デュアルLLMアーキテクチャは、質問の凝縮と応答生成に別々のモデル構成を使用する。
PostgreSQL(pgvector)を使用したKubernetes上の本番環境にデプロイされたこのサービスは、30分程度のデポジトリアシストと、引用バックのストリーミング応答を提供する。
可用性と実装:https://rcsb-deposit-help.rcsb.orgで無料で利用可能。
関連論文リスト
- The Last Human-Written Paper: Agent-Native Research Artifacts [106.47848184955576]
本稿では,物語紙を機械処理可能な研究パッケージに置き換えるプロトコルであるAgent-Native Research Artifact(ARA)を紹介する。
通常の開発において決定と終了をキャプチャするLive Research Manager、レガシPDFとリポジトリをARAに変換するARAコンパイラ、人間レビュアーが重要性、ノベルティ、味にフォーカスできるように客観的チェックを自動化するARAネイティブレビューシステムである。
論文 参考訳(メタデータ) (2026-04-27T16:23:09Z) - ReqFusion: A Multi-Provider Framework for Automated PEGS Analysis Across Software Domains [0.45880283710344066]
ReqFusionは、ソフトウェア要件の抽出、分類、分析を自動化するAI強化システムである。
アーキテクチャはOpenAI GPT、Anthhropic Claude、Groqモデルを統合し、機能的および非機能的要件を抽出する。
論文 参考訳(メタデータ) (2026-03-24T17:45:40Z) - Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - An Empirical Analysis of Fine-Tuning Large Language Models on Bioinformatics Literature: PRSGPT and BioStarsGPT [0.0]
本稿では,生物情報学の専門データに基づいて,大規模言語モデル(LLM)を微調整するための再現可能なパイプラインを提案する。
3つのLSMを微調整し、14以上の語彙と意味のメトリクスでそれらをベンチマークした。
Qwen2.5-7Bは、BLEU-4とROUGE-1がそれぞれPSSGPTとBioStarsGPTで82%、70%改善した。
論文 参考訳(メタデータ) (2025-12-29T19:09:12Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - ResCap-DBP: A Lightweight Residual-Capsule Network for Accurate DNA-Binding Protein Prediction Using Global ProteinBERT Embeddings [9.626183317998143]
本稿では,残差学習に基づくエンコーダと1次元カプセルネットワークを組み合わせた新しいディープラーニングフレームワークResCap-DBPを提案する。
ProteinBERTの埋め込みは、大きなデータセット上の他の表現を大幅に上回る。
我々のモデルは、常に現在の最先端の手法より優れています。
論文 参考訳(メタデータ) (2025-07-27T21:54:32Z) - Aligning Proteins and Language: A Foundation Model for Protein Retrieval [30.32156711268032]
本稿では,大規模タンパク質データセットから類似した構造と意味を持つタンパク質を検索することを目的とする。
近年のビジョンキャプチャーモデル (VLM) の進歩により, 3次元タンパク質構造と機能アノテーションを協調するCLIPスタイルのフレームワークが提案されている。
論文 参考訳(メタデータ) (2025-05-27T08:13:08Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Enhancing Scientific Reproducibility Through Automated BioCompute Object Creation Using Retrieval-Augmented Generation from Publications [0.0]
IEEE Biocompute Object(BCO)標準は、ニーズに対処するが、準拠するドキュメントを作成するオーバーヘッドのため、採用上の課題に直面している。
本稿では,Large Language Models(LLM)とRAG(Retrieval-Augmented Generation)を用いた科学論文からのBCOの自動生成手法を提案する。
この実装には最適化された検索プロセスが含まれており、再ランク付けされた2パスの検索と、各BCOドメインに対して慎重に設計されたプロンプトが採用されている。
論文 参考訳(メタデータ) (2024-09-23T14:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。