論文の概要: ScienceDB AI: An LLM-Driven Agentic Recommender System for Large-Scale Scientific Data Sharing Services
- arxiv url: http://arxiv.org/abs/2601.01118v1
- Date: Sat, 03 Jan 2026 08:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.037035
- Title: ScienceDB AI: An LLM-Driven Agentic Recommender System for Large-Scale Scientific Data Sharing Services
- Title(参考訳): ScienceDB AI: 大規模科学データ共有サービスのためのLLM駆動エージェントレコメンダシステム
- Authors: Qingqing Long, Haotian Chen, Chenyang Zhao, Xiaolei Du, Xuezhi Wang, Pengyao Wang, Chengzan Li, Yuanchun Zhou, Hengshu Zhu,
- Abstract要約: 我々は、Science Data Bank(ScienceDB)上で開発された新しいエージェントレコメンデーションシステムScienceDB AIを紹介する。
ScienceDB AIは自然言語の会話と深い推論を利用して、研究者の科学的意図に沿ったデータセットを正確に推奨する。
Trustworthy RAGはCSTR(Cittable Task Record)識別子を通じて、信頼性の高い参照を提供し、推奨と信頼性を高める。
- 参考スコア(独自算出の注目度): 36.35068691076956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of AI for Science (AI4S) has underscored the significance of scientific datasets, leading to the establishment of numerous national scientific data centers and sharing platforms. Despite this progress, efficiently promoting dataset sharing and utilization for scientific research remains challenging. Scientific datasets contain intricate domain-specific knowledge and contexts, rendering traditional collaborative filtering-based recommenders inadequate. Recent advances in Large Language Models (LLMs) offer unprecedented opportunities to build conversational agents capable of deep semantic understanding and personalized recommendations. In response, we present ScienceDB AI, a novel LLM-driven agentic recommender system developed on Science Data Bank (ScienceDB), one of the largest global scientific data-sharing platforms. ScienceDB AI leverages natural language conversations and deep reasoning to accurately recommend datasets aligned with researchers' scientific intents and evolving requirements. The system introduces several innovations: a Scientific Intention Perceptor to extract structured experimental elements from complicated queries, a Structured Memory Compressor to manage multi-turn dialogues effectively, and a Trustworthy Retrieval-Augmented Generation (Trustworthy RAG) framework. The Trustworthy RAG employs a two-stage retrieval mechanism and provides citable dataset references via Citable Scientific Task Record (CSTR) identifiers, enhancing recommendation trustworthiness and reproducibility. Through extensive offline and online experiments using over 10 million real-world datasets, ScienceDB AI has demonstrated significant effectiveness. To our knowledge, ScienceDB AI is the first LLM-driven conversational recommender tailored explicitly for large-scale scientific dataset sharing services. The platform is publicly accessible at: https://ai.scidb.cn/en.
- Abstract(参考訳): AI4S(AI for Science)の急速な成長により、科学データセットの重要性が強調され、多くの国家科学データセンターや共有プラットフォームが設立された。
この進歩にもかかわらず、データセットの共有と科学研究の活用を効果的に推進することは依然として困難である。
科学的データセットには、複雑なドメイン固有の知識とコンテキストが含まれており、従来のコラボレーティブなフィルタリングベースのレコメンデータが不十分である。
近年のLarge Language Models (LLM) の進歩は、深いセマンティック理解とパーソナライズされたレコメンデーションが可能な会話エージェントを構築する前例のない機会を提供する。
その結果,ScienceDB AIは,世界最大級の科学データ共有プラットフォームであるScience Data Bank(ScienceDB)上で開発された,LSM駆動のエージェントレコメンデーションシステムである。
ScienceDB AIは自然言語の会話と深い推論を利用して、研究者の科学的意図と進化する要件に沿ったデータセットを正確に推奨する。
複雑なクエリから構造化された実験要素を抽出するScientific Intention Perceptor、マルチターン対話を効果的に管理するStructured Memory Compressor、Trustworthy Retrieval-Augmented Generation (Trustworthy RAG)フレームワーク。
Trustworthy RAGは2段階の検索機構を採用し、Citable Scientific Task Record (CSTR) 識別子を通じて決定可能なデータセット参照を提供し、推奨の信頼性と再現性を高めている。
1000万以上の実世界のデータセットを使用した大規模なオフラインおよびオンライン実験を通じて、ScienceDB AIは大きな効果を示している。
私たちの知る限り、ScienceDB AIは、大規模な科学データセット共有サービス用に明示的に調整された、LLM駆動の会話レコメンデータとしては初めてのものです。
プラットフォームは、https://ai.scidb.cn/en.comで公開されている。
関連論文リスト
- A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning [32.21228080662089]
1kの大学レベルの教科書から抽出した真正な参照回答を特徴とするオープンデータセットであるTextbookReasoningを提案する。
私たちは、合計125万のインスタンスからなる高品質なオープンソースデータセットの大規模な混合であるMegaScienceを紹介します。
実験により,我々のデータセットはより簡潔な応答長で優れた性能と訓練効率が得られることを示した。
論文 参考訳(メタデータ) (2025-07-22T17:59:03Z) - Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。
動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。
結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文 参考訳(メタデータ) (2025-06-23T07:12:08Z) - Pennsieve: A Collaborative Platform for Translational Neuroscience and Beyond [0.5130659559809153]
Pennsieveはオープンソースでクラウドベースの科学データ管理プラットフォームである。
複雑なマルチモーダルデータセットをサポートし、データの視覚化と分析のためのツールを提供する。
Pennsieveは125TB以上の科学的データを格納し、350以上のハイインパクトデータセットで35TB以上のデータを公開している。
論文 参考訳(メタデータ) (2024-09-16T17:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。