論文の概要: DeepXiv-SDK: An Agentic Data Interface for Scientific Literature
- arxiv url: http://arxiv.org/abs/2603.00084v2
- Date: Tue, 03 Mar 2026 07:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.035911
- Title: DeepXiv-SDK: An Agentic Data Interface for Scientific Literature
- Title(参考訳): DeepXiv-SDK: 科学文献のためのエージェントデータインターフェース
- Authors: Hongjin Qian, Ziyi Xia, Ze Liu, Jianlyu Chen, Kun Luo, Minghao Qin, Chaofan Li, Lei Xiong, Junwei Lan, Sen Wang, Zhengyang Liang, Yingxia Shao, Defu Lian, Zheng Liu,
- Abstract要約: DeepXiv-SDKは科学文献のための3層エージェントデータインタフェースである。
DeepXiv-SDKは完全なArXivコーパスをサポートし、毎日同期して新しいリリースを組み込む。
- 参考スコア(独自算出の注目度): 60.19264121557117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-agents are increasingly used to accelerate the progress of scientific research. Yet a persistent bottleneck is data access: agents not only lack readily available tools for retrieval, but also have to work with unstrcutured, human-centric data on the Internet, such as HTML web-pages and PDF files, leading to excessive token consumption, limit working efficiency, and brittle evidence look-up. This gap motivates the development of \textit{an agentic data interface}, which is designed to enable agents to access and utilize scientific literature in a more effective, efficient, and cost-aware manner. In this paper, we introduce DeepXiv-SDK, which offers a three-layer agentic data interface for scientific literature. 1) Data Layer, which transforms unstructured, human-centric data into normalized and structured representations in JSON format, improving data usability and enabling progressive accessibility of the data. 2) Service Layer, which presents readily available tools for data access and ad-hoc retrieval. It also enables a rich form of agent usage, including CLI, MCP, and Python SDK. 3) Application Layer, which creates a built-in agent, packaging basic tools from the service layer to support complex data access demands. DeepXiv-SDK currently supports the complete ArXiv corpus, and is synchronized daily to incorporate new releases. It is designed to extend to all common open-access corpora, such as PubMed Central, bioRxiv, medRxiv, and chemRxiv. We release RESTful APIs, an open-source Python SDK, and a web demo showcasing deep search and deep research workflows. DeepXiv-SDK is free to use with registration.
- Abstract(参考訳): LLM試薬は、科学研究の進展を加速するためにますます使われてきている。
しかし、永続的なボトルネックは、データアクセスである。エージェントは検索に利用可能なツールを欠いているだけでなく、HTML WebページやPDFファイルなど、インターネット上の制約のない人間中心のデータを扱う必要があり、過剰なトークン消費、作業効率の制限、不安定なエビデンス検索につながる。
このギャップは、エージェントがより効率的で効率的で費用対効果の高い方法で科学文献にアクセスし利用できるようにするように設計された「textit{an agentic data interface」の開発を動機付けている。
本稿では,DeepXiv-SDKについて紹介する。
1) 構造化されていない人中心のデータをJSON形式で正規化および構造化された表現に変換し、データのユーザビリティを改善し、データのプログレッシブアクセシビリティを可能にするデータレイヤ。
2) Service Layer – データアクセスとアドホック検索用のツールを提供する。
CLI、MPP、Python SDKなど、エージェント使用のリッチな形式も可能になる。
3) 複雑なデータアクセス要求をサポートするため、サービス層から基本的なツールをパッケージングするアプリケーション・レイヤ。
DeepXiv-SDKは現在、完全なArXivコーパスをサポートしており、新しいリリースを組み込むために毎日同期している。
PubMed Central、bioRxiv、medRxiv、chemRxivなどの一般的なオープンアクセスコーパスに拡張するように設計されている。
RESTful API、オープンソースのPython SDK、深層検索と深層研究のワークフローを示すWebデモをリリースしています。
DeepXiv-SDKは登録で無料で利用できる。
関連論文リスト
- DataCross: A Unified Benchmark and Agent Framework for Cross-Modal Heterogeneous Data Analysis [8.171937411588015]
我々は、統合された洞察駆動分析のための新しいベンチマークと協調エージェントフレームワークであるDataCrossを紹介する。
DataCrossBenchには、ファイナンス、ヘルスケア、その他のドメインにわたる200のエンドツーエンド分析タスクが含まれている。
また、人間アナリストの「分割合成」ワークフローにインスパイアされたDataCrossAgentフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T08:40:45Z) - Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents [85.02904078131682]
本稿では,エージェントデータセット間の"インターリングア"として機能する軽量表現言語であるエージェントデータプロトコル(ADP)を紹介する。
ADPはAPI/ツールの使用、ブラウジング、コーディング、ソフトウェアエンジニアリング、一般的なエージェントなど、さまざまなタスクを捉えるのに十分な表現力を持っている。
すべてのコードとデータが公開され、ADPが標準化され、スケーラブルで再現可能なエージェントトレーニングの障壁を低くすることを期待している。
論文 参考訳(メタデータ) (2025-10-28T17:53:13Z) - Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics [75.4712507893024]
Enterprise Deep Research (EDR)は、適応的なクエリ分解のためのマスタープランニングエージェントを統合するマルチエージェントシステムである。
4つの専門的な検索エージェント(General, Academic, GitHub, LinkedIn)と、データ駆動インサイトのための可視化エージェントも含まれている。
EDRは、オプショナル・イン・ザ・ループ・ステアリング・ガイダンスによる研究の方向性を反映する。
論文 参考訳(メタデータ) (2025-10-20T17:55:11Z) - Democratizing Tabular Data Access with an Open$\unicode{x2013}$Source Synthetic$\unicode{x2013}$Data SDK [0.4874819476581695]
本稿では,高品質なデータを合成するためのオープンソースツールキットMOSTLY AI Synthetic Data Software Development Kit(SDK)を提案する。
SDKは、差分プライバシー保証、公正性を認識したデータ生成、自動品質保証などの堅牢な機能を、フレキシブルでアクセシブルなPythonインターフェースに統合する。
SDKは急速に採用され、現実世界のデータボトルネックに対処し、広範なデータの民主化を促進する実用性を強調している。
論文 参考訳(メタデータ) (2025-08-01T15:36:59Z) - AutoData: A Multi-Agent System for Open Web Data Collection [37.832257245199365]
AutoDataは、人間の介入を最小限にする必要のある、自動Webデータ収集のための新しいマルチエージェントシステムである。
Instruct2DSは、学術、金融、スポーツの3つの領域にわたるWebソースからのライブデータ収集をサポートする新しいベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-05-21T04:32:35Z) - Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs [4.721309965816974]
我々は,Wikidataのインフラを活用して学術データを確実にアクセス可能にすることを提案する。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
論文 参考訳(メタデータ) (2024-11-13T15:34:52Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。