論文の概要: Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases
- arxiv url: http://arxiv.org/abs/2603.07050v1
- Date: Sat, 07 Mar 2026 05:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.707611
- Title: Leveraging Large Language Models for Automated Scalable Development of Open Scientific Databases
- Title(参考訳): オープンサイエンスデータベースのスケーラブルな自動開発のための大規模言語モデルの活用
- Authors: Nikita Gautam, Doina Caragea, Ignacio Ciampitti, Federico Gomez,
- Abstract要約: 本稿では,Large Language Models (LLMs) を利用して,オープンサイエンスデータベースの自動化とスケーラブルな開発を行う Web ベースのツールを紹介する。
このツールは、キーワードベースのクエリ、API可能なデータ検索、LLMベースのテキスト分類を組み合わせた、自動化および統一されたフレームワークに基づいている。
提案するフレームワークはスケーラブルかつドメインに依存しないものであり、スケーラブルなオープンサイエンスデータベースを構築するためにさまざまな分野に適用することができる。
- 参考スコア(独自算出の注目度): 3.332543256537694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the exponential increase in online scientific literature, identifying reliable domain-specific data has become increasingly important but also very challenging. Manual data collection and filtering for domain-specific scientific literature is not only time-consuming but also labor-intensive and prone to errors and inconsistencies. To facilitate automated data collection, the paper introduces a web-based tool that leverages Large Language Models (LLMs) for automated and scalable development of open scientific databases. More specifically, the tool is based on an automated and unified framework that combines keyword-based querying, API-enabled data retrieval, and LLM-powered text classification to construct domain-specific scientific databases. Data is collected from multiple reliable data sources and search engines using a parallel querying technique to construct a combined unified dataset. The dataset is subsequently filtered using LLMs queried with prompts tailored for each keyword-based query to extract the relevant data to a scientific query of interest. The approach was tested across a set of variable keyword-based searches for different domain-specific tasks related to agriculture and crop yield. The results and analysis show 90\% overlap with small domain expert-curated databases, suggesting that the proposed tool can be used to significantly reduce manual workload. Furthermore, the proposed framework is both scalable and domain-agnostic and can be applied across diverse fields for building scalable open scientific databases.
- Abstract(参考訳): オンライン科学文献の急激な増加に伴い、信頼性の高いドメイン固有データを特定することはますます重要になっているが、非常に難しい。
ドメイン固有の科学文献のための手動データ収集とフィルタリングは、時間を要するだけでなく、労働集約的であり、誤りや矛盾を招きやすい。
自動データ収集を容易にするために,オープンサイエンスデータベースの自動かつスケーラブルな開発のために,LLM(Large Language Models)を活用したWebベースのツールを提案する。
より具体的に言うと、このツールは、キーワードベースのクエリ、API対応データ検索、LLMベースのテキスト分類を組み合わせて、ドメイン固有の科学データベースを構築する、自動化され統一されたフレームワークに基づいている。
複数の信頼性のあるデータソースと検索エンジンから並列クエリ技術を用いてデータを収集し、統合されたデータセットを構築する。
データセットはその後、各キーワードベースのクエリに適したプロンプトでクエリされたLLMを使用してフィルタリングされ、関連するデータを科学的なクエリに抽出する。
この手法は、農業と収量に関連する異なるドメイン固有のタスクに対する可変キーワードベースの検索のセットでテストされた。
結果と分析の結果,小ドメインの専門家によるデータベースと90%の重複がみられ,手作業量を大幅に削減できる可能性が示唆された。
さらに、提案するフレームワークはスケーラブルかつドメインに依存しないものであり、スケーラブルなオープンサイエンスデータベースを構築するために様々な分野に適用することができる。
関連論文リスト
- Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - How good are LLMs at Retrieving Documents in a Specific Domain? [3.282961543904818]
本稿では,ドメイン固有の評価データセットをキュレートして検索システムの性能を解析する自動手法を提案する。
本研究では,Large Language Models (LLMs) を用いたRAG(Retrieval of Augmented Generation)を組み込んで,自然言語クエリを用いた環境領域データの高品質な検索を行う。
論文 参考訳(メタデータ) (2025-08-25T19:47:21Z) - Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。